暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
【GoldenDB】​一种分布式数据库导出方法、装置、设备及存储介质_​​202311803913.2_金篆信科有限责任公司.PDF
12
10页
0次
2025-03-31
免费下载
(19)国家知识产权局
(12)发明专利申请
(10)申请公布号
(43)申请公布日
(21)申请号 202311803913 .2
(22)申请日 2023 .12.26
(71)申请人 金篆信科有限责任公司
地址 100176 北京市大兴区北京经济技术
开发区科谷一街10号院8号楼18(
京自庄组
)
(72)发明人 张棋福 张锋民 
(74)专利代理机构 南京利丰知识产权代理事务
(特殊普通合伙) 32256
专利代理师 艾中兰
(51)Int.Cl .
G06F
16/27
(2019 .01)
(54)发明名称
一种分布式数据库导出方法装置设备及
存储介质
(57)摘要
本发明涉及分布式数据库技术领域公开一
种分布式数据库导出方法装置设备及存储介
该分布式数据库导出方法基于数据分区
过多种数据分区方式相结合在保证数据完整的
情况下构造符合数据分布特征的导出语句不仅
能实现数据表间并发导出还能实现数据在分片
间和分片内并发导出从而极大提升分布式数据
库的导出性能提高数据并发导出效率
权利要求书1页 说明书5页 附图3页
CN 117633118 A
2024.03.01
CN 117633118 A
1 .一种基于数据分区的分布式数据库导出方法其特征在于包括
解析待导出数据所在表的DDL获取待导出数据的分片分区信息
根据待导出数据的分片分区信息构造各分区数据对应的导出语句
创建待导出数据的直方图反馈待导出数据的分布情况;
根据待导出数据的分布情况构造各导出语句的where子语句对待导出数据进一步分
块,使并发导出的数据量趋向于平均
利用构造好的各导出语句并发导出数据
2 .如权利要求1所述的基于数据分区的分布式数据库导出方法其特征在于所述创建
待导出数据的直方图包括对于复制分发的表按照用户自定义where条件主键唯一索
普通索引的优先级顺序使用其一对任意一个分片上的表创建直方图
3 .如权利要求1所述的基于数据分区的分布式数据库导出方法其特征在于所述创建
待导出数据的直方图包括对于依赖于分发字段的表若各分片数据非均匀分布根据分
发键创建直方图若各分片数据趋向于均匀分布按照主键唯一索引普通索引的优先级
顺序使用其一创建直方图
4 .如权利要求1所述的基于数据分区的分布式数据库导出方法其特征在于所述根据
待导出数据的分布情况构造各导出语句的where子语句对待导出数据进一步分块使并发
导出的数据量趋向于平均包括对于整型字段的直方图当数据分布呈正态分布构造
where子语句将数据量少的区间合并使并发导出的数据量趋向于平均
5 .如权利要求1所述的基于数据分区的分布式数据库导出方法其特征在于所述根据
待导出数据的分布情况构造各导出语句的where子语句对待导出数据进一步分块使并发
导出的数据量趋向于平均包括对于非整型字段的直方图根据字段名及其对应数据的分
布特征使用模糊匹配或全匹配构造where子语句使并发导出的数据量趋向于平均
6 .如权利要求1所述的基于数据分区的分布式数据库导出方法其特征在于当用户指
定了待导出数据的分片分区信息则无需解析待导出数据所在表的DDL根据用户指定的
分片分区信息构造各分区数据对应的导出语句
7 .一种基于数据分区的分布式数据库导出装置其特征在于包括
解析模块用于解析待导出数据所在表的DDL获取待导出数据的分片分区信息
导出语句构造模块用于根据待导出数据的分片分区信息构造各分区数据对应的导
出语句
创建模块用于创建待导出数据的直方图反馈待导出数据的分布情况;
子语句构造模块用于根据待导出数据的分布情况构造各导出语句的where子语句
待导出数据进一步分块使并发导出的数据量趋向于平均
导出模块用于利用构造好的各导出语句并发导出数据
8.一种电子设备包括处理器和存储器所述存储器存储有可在所述处理器上运行的
程序其特征在于所述程序被所述处理器执行时实现权利要求16任一项所述的基于数据
分区的分布式数据库导出方法的步骤
9 .一种计算机可读存储介质存储有至少一个程序其特征在于所述至少一个程序可
被至少一个处理器执行以实现权利要求16任一项所述的基于数据分区的分布式数据库
导出方法的步骤
权 利 要 求 书
1/1
2
CN 117633118 A
2
一种分布式数据库导出方法装置、设备及存储介质
技术领域
[0001]
本发明涉及分布式数据库技术领域尤其涉及分布式数据库导出方法
背景技术
[0002]
随着分布式技术的不断完善和信息量的不断膨胀越来越多的企业选择使用分布
式数据库数据导出是企业日常使用数据库的关键一环而更高的导出性能可以缩减数据
迁移的耗时因此提升导出性能是一个迫切的需求
[0003]
当前普遍应用的数据库导出方案是将各个表的数据整表导出在并发度上仅进行
表级并发这种并发方式在多表导出时数据量差距越大并发效果越差极端情况可能仅有
一个大表在导出即使有些工具能在导出字段为数值类型时能进行行级并发但使用场景
受限制不能满足分布式数据库大多数情况下数据导出的需求
[0004]
分布式数据库通过CNCompute Node 计算节点简称CN将数据按不同的规则分
成多个分片并分发到不同的DNData Node 数据节点简称DN在进行导出任务时CN
需要处理来自导出工具的SELECT查询 SQL语句经过计算后分发到不同的DN上进行处
理,并将各个数据节点的结果汇总成完整的结果集返回给导出工具此过程中导出效率受
限于CNDN的处理耗时往往导出工具发起导出任务时的查询语句没携带有分片信息
没有限定数据区间完全依赖CNDN的处理在分布式计算场景下如何更高效的实现并发
是影响导出性能的关键
发明内容
[0005]
本发明的目的是提出一种基于数据分区的分布式数据库导出方案该方案支持多
种分发方式的表行级并发导出解决目前分布式数据库导出慢导出语句没有契合数据分
布特性的问题
[0006]
为实现本发明目的本申请一实施例提供一种基于数据分区的分布式数据库导出
方法其特征在于包括
解析待导出数据所在表的DDL获取待导出数据的分片分区信息
根据待导出数据的分片分区信息构造各分区数据对应的导出语句
创建待导出数据的直方图反馈待导出数据的分布情况;
根据待导出数据的分布情况构造各导出语句的where子语句对待导出数据进一
步分块使并发导出的数据量趋向于平均
利用构造好的各导出语句并发导出数据
[0007]
本申请一实施例还提供一种基于数据分区的分布式数据库导出装置其特征在
于,包括
解析模块用于解析待导出数据所在表的DDL获取待导出数据的分片分区信息
导出语句构造模块用于根据待导出数据的分片分区信息构造各分区数据对应
的导出语句
说 明 书
1/5
3
CN 117633118 A
3
of 10
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。