暂无图片
暂无图片
3
暂无图片
暂无图片
暂无图片

OceanBase 源码解读(三)分区的一生

原创 OB小话唠 2021-08-25
808

竹翁,OceanBase 内核研发总监
杨志丰,花名竹翁,毕业于北京大学,长期从事分布式系统和数据库的研发工作,现于阿里巴巴/蚂蚁金服自主研发的分布式关系数据库 OceanBase 团队负责研发工作,致力于把设计先进的 HTAP 数据库系统打造成技术业内标杆的核心基础设施。在 OceanBase 系统中,他先后负责研究 OceanBase 的 SQL 引擎、分布式主控模块、多模数据库方向以及 OceanBase 的数据库平台产品研发,并于近期开始负责内核创新研发工作。竹翁对 C++、分布式系统原理、SQL 查询处理、事务处理、编译技术、工程效率等方面具有深入的理解。

本节主要介绍 OceanBase 的存储层。

前两篇源码解读可参考:

OceanBase 源码解读(一)模块结构:https://www.modb.pro/db/98595
OceanBase 源码解读(二)SQL的一生:https://www.modb.pro/db/100087

分区是 OceanBase 的一等公民。一个表由一个或者若干个分区组成,分区是 OceanBase 逻辑上水平可扩展概念和物理上数据组织的基本单位。分区是自包含的:每个分区有自己独立的选举和 leader,独立的事务日志、数据存储和索引。分区可大可小,一般大小在 G B量级,它可以被 RS 在多个节点之间调度以实现负载均衡。

每个分区有一个唯一标识 OBPartitionKey,由租户 id、表 id、分区 id 组成。从存储层来说,每个节点就是存储和组织这些 key 对应的分区副本,每个节点上可以有数万个副本。副本有多种类型,比如只读副本与主副本之间不是通过 paxos 协议,而是异步消息同步事务日志。

image.png

storage/ob_partition_service.h 是存储层的总入口,它对外提供了存储层的所有 RPC 服务,如创建删除分区副本。实际上,它是每个节点上所有分区级接口的入口,包括事务控制接口、分区读写的接口等。

前面讲过,建表和新增分区等 DDL 语句是由 RS 执行的,RS 在根据一定策略选定节点后,就会 RPC 调用这里的 create_xxx。

从这个入口一层一层追下去,可以找到所有存储结构。但存储层内部有大量类似的接口,很容易混淆。每个分区都是一个“索引组织表”,索引结构是多层的 LSM-Tree。虽然是多层,但是有参数可以调整,尽量只有内存里的 memtable(见storage/memtable)和磁盘上的 major sstable(见 storage/blocksstable)两层。每次 major compaction 的时候,memtable, minor sstable 的数据与原来的 major sstable 合并,产生新版本的 major sstable。在合并期间,可能有多个版本的 major sstable 同时提供服务。一个分区副本的多层存储结构合起来,就是类 OBPartitionStore。

前面我好像说过“分区是 OB 的一等公民”?额,其实我撒谎了。PG 才是。此 PG 非彼 PG。PG,Partition Group,表示共享同一个事务日志流和 memtable 的“有紧密关系的”一组分区。外部一般不使用这个特性,一般一个 PG 里面只有一个分区,所以您就当我没说。但是我说了你才能理解这里的存储结构和操作对象为什么有奇怪的pg前缀和 OBPGKey。

读到这里,云里雾里?那就对了。看官自己画一个类图吧。

好吧,我知道你懒得画图。为了表达诚意,献上用我最喜欢的文档工具“语雀”画的存储结构相关类图。

image.png

一图胜千言。

image.png

sql/engine/table 是 SQL 物理执行计划中执行表扫描的算子,它通过 ob_partition_service.h 的 table_scan 接口获得一个迭代器(迭代结束要调用 revert_scan_iter),这就是存储层提供的数据访问入口。还有 DML(sql/engine/dml)使用的insert_rows, delete_rows, update_rows和lock_rows 等接口。

当分区或表被删除的时候,OBPGPartition 及其所有包含的存储结构将被删除。但是并非立即释放资源,要等所有引用失效且资源不被使用时执行清理。

以上便是分区的一生。


如果您有任何疑问,可以通过以下方式与我们进行交流:

微信群:扫码添加小助手,将拉你进群哟~
image.png

钉钉群:33254054

image.png

欢迎大家一起参与 社区贡献 ,指南请参考看 这里
社区答疑:请点击 这里

最后修改时间:2021-10-28 16:46:39
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论