导读:ClickHouse速度快的秘诀在于——利用存储引擎的特殊设计充分减少磁盘I/O对查询速度的影响。
ClickHouse为什么查询速度快?本文来揭秘。
1、预排序
ClickHouse与传统事务数据库的一个不同之处在于ClickHouse写入数据文件的数据时有序的,这就是本节将要介绍的预排序:将数据在写入磁盘前进行排序,以保证数据在磁盘上有序。
预排序在数据库系统是一个被广泛使用的技术,在实现范围查找时,可以将大量的随机读转换为顺序读,从而有效提高I/O效率,降低范围查询时的I/O时间。在点查找时,预排序能做到和未排序数据相同的性能。因此,预排序可以在不降低点查找性能的情况下,有效提高范围查询的性能。
2、列存
列存数据库和行存数据库最根本的区别在于列存数据库将一行数据拆分到多个数据文件中。在列存数据库中,同一列的所有数据都在同一个文件中,因此在硬盘上是连续的。这种特性特别适合OLAP的低范式查询场景。
3、压缩
ClickHouse的另一个降低I/O的手段是压缩,压缩可以减少读取和写入的数据量,从而减少I/O时间。并不是所有场景下都可以引入压缩的,很显然,压缩必然带来压缩和解压缩的CPU消耗,这是一个利用CPU时间换I/O时间的手段。事务数据库由于大部分情况下是针对行的操作,因此如果对每一行都进行一次压缩解压缩,带来的时间消耗是远大于磁盘I/O时间的。这就是事务数据库没有使用压缩技术的原因。
而ClickHouse则不同,ClickHouse的最小处理单元是块,块一般由8192行数据组成,ClickHouse的一次压缩针对的是8192行数据,这就极大降低CPU的压缩和解压缩时间。同时,ClickHouse是列存数据库,同一列的数据相对更有规律,因此能够带来比较大的压缩比。因此,块+压缩在ClickHouse中成为一个非常关键的优化手段。
1、 ClickHouse速度快的前提
在正式进入本节内容之前,我们首先需要明确一个前提:ClickHous不是在所有场景下都能获得很强的性能。因此,需要先分析ClickHouse在满足哪些前提下才能获得最强的查询性能。
ClickHouse计算引擎最精妙的设计在于向量化引擎,那么ClickHouse由于计算引擎原因导致的快,肯定是来自向量化引擎的加持。而ClickHouse的计算引擎导致的慢是因为缺乏代价优化器,那么由于计算引擎导致的慢也来自缺乏代价优化器带来的缺陷。基于这两个逻辑,我们可以分析出ClickHouse速度快的前提。
1)大量使用向量化运算
ClickHouse提供了很多内置函数,在使用这些内置函数时,ClickHouse会自动进行向量化优化。因此尽可能使用提供的内置函数进行计算,而不是自己写SQL语句。下面展示错误的SQL写法以及正确的写法。
SELECT (2/(1.0 + exp(-2 * x))-1) as tanh_x …… 错误的写法
SELECT tanh(x) as tanh_x …… 正确的写法,直接使用ClickHouse的内置函数
复制
2)查询语句中没有使用Join子句,或尽可能少的使用Join操作
ClickHouse没有代价优化器,这导致了ClickHouse在Join操作时会出现内存不足等情况,导致查询失败。Join的性能问题其实并不仅仅是ClickHouse才遇到,任何数据库在遇到大表Join时都有可能导致查询时间暴增。
大数据中的Spark计算引擎对Join操作做了非常多的优化,借助其强大的CBO实现了Join算法的自动选择。更是在此基础上,通过AQE(Adaptive Query Execution,自适应查询引擎),解决了大表Join操作时遇到数据倾斜时的性能问题。
正是由于ClickHouse没有实现CBO,因此ClickHouse在实现Join操作时,选择余地很少。尤其是分布式大表Join操作时,ClickHouse只实现了广播连接(Broadcast Join)算法,极大地降低了ClickHouse的Join能力。
在使用ClickHouse时,应当尽可能避免Join操作。而Join操作在ODS建模的过程中大量存在。因此,ClickHouse在设计良好的DW上运行向量化查询的性能最高。读者应该尽可能避免将ClickHouse用于ODS的建模工作中。当数据量大时,这类建模工作还是尽可能下推到Spark上执行。
2、ClickHouse快的本质
使用MergeTree存储引擎。 按照业务需求,正确设置数据表的排序键,查询时需满足最左原则。
没有或少用Join操作。 尽可能多地使用内置函数。
关于作者:陈峰,资深大数据专家和架构师,ClickHouse技术专家,滴普科技(2B领域独角兽)合伙人兼首席架构师。《ClickHouse性能之巅:从架构设计解读性能之谜》作者。
好了,今天我又来给大家伙送书了,送书规则如下:
1. 在文末留言,说明你为什么要此书?在精选留言中随机挑选两位,分别赠送两本(参与的同学需要转发朋友圈哟)!
2. 给星球小伙伴社群抽一本(点我领优惠券)
加我好友,拉你进群!
文章转载自JAVA日知录,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
相关阅读
数据库国产化替代深化:DBA的机遇与挑战
代晓磊
1227次阅读
2025-04-27 16:53:22
2025年4月国产数据库中标情况一览:4个千万元级项目,GaussDB与OceanBase大放异彩!
通讯员
690次阅读
2025-04-30 15:24:06
国产数据库需要扩大场景覆盖面才能在竞争中更有优势
白鳝的洞穴
576次阅读
2025-04-14 09:40:20
【活动】分享你的压箱底干货文档,三篇解锁进阶奖励!
墨天轮编辑部
496次阅读
2025-04-17 17:02:24
一页概览:Oracle GoldenGate
甲骨文云技术
472次阅读
2025-04-30 12:17:56
GoldenDB数据库v7.2焕新发布,助力全行业数据库平滑替代
GoldenDB分布式数据库
466次阅读
2025-04-30 12:17:50
阿里云 Elasticsearch Serverless 检索增强型 8.17 版来袭!
阿里云大数据AI技术
376次阅读
2025-04-18 10:24:15
优炫数据库成功入围新疆维吾尔自治区行政事业单位数据库2025年框架协议采购!
优炫软件
356次阅读
2025-04-18 10:01:22
国产数据库图谱又上新|82篇精选内容全览达梦数据库
墨天轮编辑部
269次阅读
2025-04-23 12:04:21
MySQL 30 周年庆!MySQL 8.4 认证免费考!这次是认真的。。。
数据库运维之道
252次阅读
2025-04-28 11:01:25