暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
一种openGauss访问ORC数据的方法_CN116010337A_海量数据.pdf
15
10页
0次
2025-02-14
免费下载
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号
(43)申请公布日
(21)申请号 202211577565 .7
(22)申请日 2022 .12.05
(71)申请人 广州海量数据库技术有限公司
地址 510510 广东省广州市天河区建工路4
号佳都科技大厦2号楼3F301(仅限办
(72)发明人 杨绕 苏章艳 
(74)专利代理机构 北京尚钺知识产权代理事务
所(普通合伙) 11723
专利代理师 王海荣
(51)Int.Cl .
G06F
16/11
(2019 .01)
G06F
16/14
(2019 .01)
G06F
16/182
(2019 .01)
(54)发明名称
一种openGauss访问ORC数据的方法
(57)摘要
本发明涉及数据库存储技术领域提供一种
openGauss访问ORC数据的方法包括通过Kafka
将处理完成的数据存储至HDFSHDFS将数据转化
ORC OR C
cumeta元数据文件根据生成的cumeta元数据文
件在openGauss数据库创建对应的ORC外部列存
扫描创建的ORC外部列存表将ORC外部列存
表对应的存储路径下待扫描的ORC文件数据转化
C U 例的
openGauss访问ORC数据的方法可以避免在关系
数据库和大数据平台各保存一份数据带来的存
储开销减少大量的物理IO保证数据的一致性
适合更多样的查询场景有效提高查询效率
权利要求书2页 说明书5页 附图2页
CN 116010337 A
2023.04.25
CN 116010337 A
1 .一种openGauss访问ORC数据的方法其特征在于所述方法包括
步骤S1通过Kafka将处理完成的数据存储至HDFS
S2 HDFSS1ORC 与所ORC应的
cumeta元数据文件
步骤S3根据步骤S2生成的cumeta元数据文件在openGauss数据库创建对应的ORC外部
列存表
步骤S4扫描步骤S3创建的ORC外部列存表将ORC外部列存表对应的存储路径下待扫
描的ORC文件数据转化为CU格式数据
2.根据权利要求1所述的openGauss访问ORC数据的方法其特征在于步骤S2中同步
生成与所述ORC文件对应的cumeta元数据文件包括
步骤S21在writerImpl类中调用init函数打开HDFS中已有对应的cumeta元数据文件
当HDFS中不存在对应的cumeta元数据文件时创建并打开所述对应的cumeta元数据文件
步骤S22获取ORC文件的strip元数据信息将获取的strip元数据信息写入cumeta元
数据文件
步骤S23在完成所述ORC文件中所有strip元数据信息的写入时调用writerfooter函
数关闭ORC文件和cumeta元数据文件
3 .根据权利要求1所述的openGauss访问ORC数据的方法其特征在于步骤S3包括
openGauss数据库内部扩展现有创建内部表的语法采用扩展的创建内部表的语法对ORC外
部列存表进行创建获得ORC外部列存表
4 .根据权利要求3所述的openGauss访问ORC数据的方法其特征在于步骤S3中
openGauss数据库内部扩展现有创建内部表的语法包括
将表的标识项orientation的值设置为ORC
新增用于定位ORC文件位置的location选项将location选项的值设置为ORC外部表存
储路径
5 .根据权利要求3所述的openGauss访问ORC数据的方法其特征在于步骤S3中采用
扩展的创建内部表的语法对ORC外部列存表进行创建包括
判断标识项orientation的值是否为ORC当标识项orientation的值为ORC时根据
location选项的值访问cumeta元数据文件读取cumeta元数据的每一行对读取的每一行
cumeta元数据进行合法性校验将通过合法性校验的每一行cumeta元数据转化为CUDesc元
数据信息后插入CUDesc表中所述CUDesc元数据信息包括ORC文件的全路径数据块所在
strip的strip ID以及数据块ID
6 .根据权利要求1所述的openGauss访问ORC数据的方法其特征在于步骤S4包括
步骤S41openGauss数据库在加载列存表时根据调用方访问需求加载CUDesc表
步骤S42根据CUDesc元数据信息中数据块所在strip的strip ID判断加载的列存表是
否为ORC外部列存表
步骤S43根据CUDesc表中CUDesc元数据信息从ORC外部列存表对应的存储路径下获取
待扫描的ORC文件的及待扫描数据块在ORC文件中的具体位置信息
步骤S44根据待扫描的ORC文件以及待扫描数据块在ORC文件中的具体位置信息获取
待扫描的ORC文件中的数据块
权 利 要 求 书
1/2
2
CN 116010337 A
2
of 10
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论