本期直播回顾
随着智能数据时代的到来,数据量爆发式增长,数据形态呈海量化和多样化发展,不再是单一的结构化数据。从海量和多样化的数据做融合分析,创造更多业务价值的诉求日益强烈。
在本期《GaussDB(DWS)湖仓融合技术解析》的主题直播中,华为云数仓GaussDB(DWS)研发专家高若岳老师,深入解析GaussDB(DWS)数据仓库如何与大数据生态快速对接?如何高效访问开源数据?GaussDB(DWS)湖仓融合技术为企业带来哪些助力?
云厂商:基于对象存储,以 S3、OSS、OBS 等构建数据底座,进行统⼀存储即为湖; 大数据互联网:以数据湖三剑客为主,Iceberg、Hudi、Delta lake。它们可以支持比 Hive更高层的 Upsert、Delete、事务操作等高级特性,能基于 Hive 进行升级,解决准实时性的问题即为湖; 传统用户:以Hadoop集群为主,满足支持所有结构化、半结构、无结构化的数据存储即为湖。
更低的存储成本,更高的可靠性:使用对象存储,相比于本地磁盘存储、SSD 存储或者云盘存储等,可以大幅降低存储成本,并且通过编码的方式能够在降低副本数据量的同时又能保证高可靠性,可以使用户不用担心底层数据的丢失,从而获得低成本的存储; 更好的 Table format:通过支持 ACID 事务、支持 Schema evolution,能够为用户提供更好的表格式; 更好的 File format:数据湖在文件格式上支持越来越多的半结构化 Map、Struct、Json 等,并且支持越来越多的索引,进而使文件的查询和存储效率更高,并且在基于列式存储的基础上支持更多的复杂嵌套结构; 统⼀的 Catalog:通过统一的 Catalog 实现统⼀的元数据管理、权限管理、统计信息管理、入湖管理等。
为什么要做湖仓融合?
数仓加速:基于数据湖的远程IO成本很高,且缺少一系列数仓加速的手段。早期的数据湖格式多样且不成熟,索引的支持不完善,查询性能有待提升。并且数据湖主要针对吞吐量的优化,关注低成本和高可靠,不适用于高性能的需求; 实时分析:传统的数据湖实时性不够,在Iceberg或者Hudi的支持下可能能解决分钟级别的时效性,但是无法解决秒级时效性的问题; 高并发查询:对于高并发查询,不管是点查还是聚合类的查询,数仓是更擅长的。比如做分桶的处理,更精细的裁剪,降低扫描的数据量,提升点查的效率。另一方面通过物化视图或者CUBE等相关的预聚合手段,可以提升聚合查询的性能。 降本增效:简化技术架构,增强整体架构可靠性,降低运维成本; 更完善的数据治理:湖仓融合的数据底座统一了主数据和元数据,基于此才有可能做上层统⼀的数据治理。
GaussDB(DWS)湖仓融合优势介绍
无缝访问数据湖
对接LakeFormation元数据管理,直接访问数据湖的数据表定义;
支持主要开源数据格式:Hudi,ORC, Parquet, Carbon,Iceberg等;
可支持实时链路的增量分析,也可以支持离线链路的批量分析;
数据湖加速。
融合查询
GaussDB(DWS)混合查询数据湖和仓内的任意数据; 查询一步到位输出到仓内/数据湖,无需额外数据中转拷贝。
极致查询性能
使用GaussDB(DWS)数仓高质量的查询计划和高效的执行引擎; 使用数仓的负载管理手段,精准控制。

▲ 湖仓融合架构图
湖仓融合支持哪些数据格式?
文本类型:支持TEXT、CSV,高性能导入导出,支持指定分隔符(delimiter)、换行符(eol)、编码(encoding),以及多种容错方式处理,错误表等; 列存存储格式:高性能列式存储格式,用于大数据环境中高效的存储和查询数据,支持多种压缩算法、编码方式,并且兼容多种引擎;Parquet/ORC:融合查询,复杂类型查询,支持多种压缩算法,支持多种方式写出。 湖格式:Hudi 是一个功能丰富的存储管理平台,支持构建具有增量数据管道的流式数据湖,针对处理引擎和常规批处理进行了优化;针对数据探索、BI场景的交互式分析能力进行了优化;支持COW、MOR的导入查询,以及增联同步导入。
如何统一湖仓的元数据和建表语句,让用户获得一个统一数据目录和表结构; 如何完善湖仓的实时能力,来解决不同场景的实时性需求; 如何让湖仓架构能够有超过数仓的性能。
湖仓融合功能介绍
Hudi具备哪些能力?
变更数据:支持高效的数据更新,删除能力,基于可插拔的索引保证数据唯一,支持Upsert、Merge语法; 实时性:支持CDC数据实时入湖;支持增量数据处理,可基于Flink、Spark进行流式数据处理;支持基于增量通道实现快速增量批量处理; 数据事务:支持事务ACID,异常回滚,Snapshot数据隔离; 并发性:支持MVCC并发控制,支持读写并发操作; 多版本能力:支持基于Time Travel多版本,SavePoint能力; 存储优化:支持order/z-order clustering 优化,提高查询能力; 表结构变更:支持丰富的表变更操作,向后兼容; 数据管理:支持丰富的clustering、compactions、clean、小文件自动合并操作; 生态兼容:丰富的生态集成,支持flink/spark 写入,HetuEngine/hive/spark/flink 做实时/增量查询。

Hudi查询方式介绍
Hudi外表查询
增量查询

增量设置的增量参数

查询Hudi外表属性
查询Hudi外表最大时间线

元数据打通——Lakeformation使用指导
创建Lakeformation数据源
有可用的LakeFormation实例且已对接MRS服务; 创建包含LakeFormation权限的委托(需包含最小权限)。
创建external schema


本期分享到此结束,更多关于GaussDB(DWS)产品技术解析、数仓产品新特性的介绍,请关注GaussDB(DWS)开发者平台,GaussDB(DWS)开发者平台为开发者们提供最新、最全的信息咨询,包括精品技术文章、最佳实践、直播集锦、热门活动、海量案例、智能机器人。让您学+练+玩一站式体验GaussDB(DWS)。

往期精彩回顾
戳“阅读原文”,了解更多GaussDB(DWS)开发者平台。
文章转载自GaussDB DWS,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。







