暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

解锁云原生虚拟数仓 PieCloudDB『第一期』

原创 OpenPie丨拓数派 2023-04-19
335

随着计算资源和网络资源的丰富,计算平台经历了从大型机年代,PC 机年代,到如今的云时代的三代平台变更。在第三次变革中,服务器虚拟化技术的突破引领了云计算时代的到来。

图片 1.png
三代计算平台变更

为了充分利用云带来的红利,拓数派打造了一款全新的云时代的数据库管理平台:PieCloudDB。PieCloudDB Database 将用户数据,元数据和计算引擎三个逻辑核心组件进行拆解并在云上重组。这种存储和计算分离的架构带来了云上的高弹性,并具备了软硬分离的高容错和高在线能力。用户可以根据自身需求,按需进行存储或计算资源的弹性扩展。

图片.png
数仓云原生虚拟化技术突破引领数据计算时代到来

自2022年10月24日以来,拓数派陆续发布了 PieCloudDB 社区版和企业版,以及一体机版本。在3月14日 πDay,拓数派发布 PieCloudDB 全新版本:云上云版。至此,PieCloudDB 完成了对裸硬件,私有云,和公有云三种部署方式的全面支持。

图片2.png
PieCloudDB 的多种部署方式

在新版本中,PieCloudDB 全面实现数据仓库上云虚拟化。

云原生数仓虚拟化突破了传统 MPP 数据库的众多瓶颈,实现了云上 eMPP 全新架构,做到多个云原生虚拟数仓并发执行。从而获得云上新架构提供的众多红利,包括打破数据孤岛,秒级扩缩容,动态调配资源,按需付费等。

图片3.png

PieCloudDB 实现云上 eMPP 架构

新的版本实现了众多全新功能,带来了性能和稳定全方位的提升,让 PieCloudDB 做到了真正的「unbreakable」坚如磐石,包括:

  • 聚集下推功能得到增强

在数据库的分析型场景下往往存在大量的聚集运算。PieCloudDB 实现的聚集下推功能通过把聚集操作下推到连接操作之前去执行,可以大大减少链接操作需要处理的数据量,让查询性能显著提升。 

经测试,聚集下推让 PieCloudDB 在某些复杂查询的应用场景下得到了近百倍甚至千倍的提升。

mnggiflabcompressed聚集下推(压缩).gif
聚集下推功能

  • Block File Skipping 优化

PieCloudDB 的用户数据以行列混存的数据格式被存储在对象存储中。 同时,PieCloudDB 以block 文件为存储单位。Block 文件按列存储,从而获得高效的压缩,节省存储空间; PieCloudDB 在全新版本中实现的 Block File Skipping 的优化机制  在数据库运行查询语句时,通过预计算每个 block 文件中列聚集信息 ,在执行期间跳过非必要的数据块,从而减少数据读取量,提高查询性能。

图片4.png
PieCloudDB 行列混存

  • 实现极速 Analyze

“Analyze” 操作可以分析数据库表的内容,收集有关每个表的每一列中值分布的统计信息。数据库查询引擎会利用这些统计信息生成最佳查询计划。 

对于大部分的数据库系统,Analyze 往往是手动执行,或由AUTO VACUUM 自动执行,对于数据量较大的大表的查询,时间过长。 

在全新版本中,PieCloudDB 实现极速Analyze,可以在数据发生变化时自动完成Analyze,及时生成更为准确的查询规划统计信息。

  • 全新的缓存机制

针对元数据,PieCloudDB实现了元数据层全新的缓存机制,有效减少了访问元数据服务器带来的网络通信开销和元数据服务器的负载,提高元数据访问的速度。

  • 支持快速ETL/ELT、和外部数据源的查询

PieCloudDB 在全新版本中,原生支持Kafka流数据导入。copy操作由原先的单节点优化至整个集群,性能得到大幅提升,与集群尺寸成正比。  此外,在全新版本中,PieCloudDB 支持 foreign-data wrapper 模块,使用户可以访问包括但不限于HDFS、MySQL等数据源。同时 PieCloudDB 支持用户自行开发模块来访问新的存储数据源。

除了这五项重大优化,PieCloudDB全新版本内核还实现了

  • 可观测性增强
  • Vacuum 优化”
  • 在 HDFS/NAS 系统上支持原生存储格式
  • 对开源优化器 Orca 的支持
  • 对开源机器学习库 Madlib 的支持
  • 支持超大数据量字段

…. 
等多项优化

PieCloudDB 打造了全新的存储引擎简墨(JANM) 。简墨出自”竹简墨书”,形象的描述了PieCloudDB行列混存的存储形式。 

在PieCloudDB 的全新版本中,存储引擎 JANM 实现了:

  • JANM分布式处理的增强
  • JANM动态分配读取文件,增强 dispatch 性能
  • JANM异常处理的优化

…. 
等多个功能

PieCloudDB 云原生管控平台完成了包括:

  • 用户权限优化
  • 注册选项增加
  • 数据洞察优化
  • 数据导入优化
  • 外部接入支持更多类型

…. 
等多项优化

PieCloudDB 将不断迭代,继续前行,欢迎大家前往 openpie.com/product 申请试用。也期待大家扫码加入我们的技术社区,与我们携手共进!

最后修改时间:2023-08-08 14:35:05
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论