暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

DAP数据分析平台如何应用Doris数据库

数通文轩 2025-03-07
11
在AI时代,数据治理需求日益增加,因为只有数据准确才能通过AI运算出来,所以如何高效地管理和利用数据成为了关键。DAP数据分析平台作为一款专业的数据分析工具,旨在为用户提供全方位的数据分析解决方案。而Doris数据库作为一款高性能的分布式SQL数据库,以其卓越的数据存储和处理能力,逐渐成为企业构建数据分析平台的首选之一。
本文将探讨DAP数据分析平台如何通过集成Doris数据库,实现高效的数据存储、查询和分析,从而帮助企业在激烈的市场竞争中占据优势。
整体介绍

DAP数据分析平台结合了Doris数据库的高性能实时分析、高并发和低延迟查询等特点,为用户提供了全面的数据管理和分析解决方案。通过集成Doris,DAP平台实现了高效的数据存储、快速查询和灵活扩展,满足企业日益增长的数据处理需求,提升数据分析效率和决策支持能力。
1产品体系
首先介绍一下我们数通畅联的产品体系:
数通畅联的所有产品都是通过K8S云平台进行部署搭建产品环境,通过不同的产品组合方案来解决企业面临的不同信息化困境,帮助企业完善信息化发展。
上图所示通过DAP数据分析平台+MDM基础数据平台+ESB企业服务总线组成了AiBOS数智化经营管理平台,融合算法模型,提供强大分析、智能流程优化及全面资源规划功能,助力企业全方位数智化转型,提升决策效率与竞争力。
2产品功能
数据分析平台全生命周期是通过采集各个业务系统数据构建数仓,从而进行有效分析的过程,能够真实、准确、有效的将企事业内部及行业外部相关数据进行可视化展现,帮助企事业提升行业洞察力,加强决策力,从而提升整体竞争力。
数据分析平台功能有:
1.数据来源(应用系统定义、数据源头配置、ODS数据定义)数仓模型。
2.数仓模型(业务主题、维度配置、事实配置、模型配置、指标管理)。
3.数据调度(规则校验、调度资源(同步资源、加工资源)、调度任务、调度日志(同步日志、加工日志)、质量日志、通知日志)。
4.分析模型(数据集配置、立方体配置、业务类报表、多维度分析)。
5.算法模型(算法原型、算法开发、算法调用)
6.展现模型(导航管理、组件管理、展现主题、装饰管理)。
7.数据服务(接收服务、查询服务、统计服务、指标服务、业务服务)
8.数据标签(标签定义、标签配置、标签画像)。
9.统计分析(数据地图、质量分析、血缘分析、影响分析)。
10.系统管理(组织管理、角色管理、人员管理、功能管理、编码类型、编码管理、系统日志)。
3
功能说明
Doris采用列式存储引擎,数据以按列的方式进行存储。这种方式使得相同类型的数据连续存放,从而可以使用更加高效的编码方式,获得更高的压缩比,降低存储成本。
平台中引用Doris作为ODS中间库和数仓的存储数据库,数据分析平台中应用Doris可以显著提升查询性能、实时数据处理能力、系统可扩展性和易用性等方面,进而提升业务决策效率、降低数据处理成本、推动数字化转型并增强数据安全性。
数据采集

数据采集是从业务系统到ODS中间库,数据来源各个业务系统,系统中由于长期累计的大量数据,而这些数据要同步到数据ODS中间库中,所以就要应用生Doris数据库。
1功能场景
数据采集是从业务系统到ODS中间库,ODS中间库是选择表的过程,是从各个业务系统选择要进行业务数据治理的数据相关的表,在ODS数据定义中进行定义,ODS同步方式分为源库读取、流程同步、接口同步、外部同步,其中源库读取就是直接复用业务系统数据,流程同步、外部实时集成是支持Doris数据库。
2
功能说明
首先在数据源头配置中增加ODS的Doris数据库,如图:
ODS数据定义配置Doris信息步骤如下:
分配个数: 分配个数通常指的是数据分片(shard)的数量。Doris数据库通过将数据划分为多个分片来实现分布式存储和计算,每个分片存储一部分数据,分布在不同的节点上。这样可以提高数据查询和处理的并行度,从而提升性能和效率。
通个数: 指的是表的分区(partition)数量。分区是将表中的数据逻辑上划分成多个部分,每个分区称为一个桶(bucket)。这种分区可以基于列的值范围、哈希函数等进行定义,旨在优化查询性能和数据管理。
分区字段: 指的是用于定义表分区的列或列组合。分区字段决定了如何将表中的数据逻辑上划分为多个部分,每个部分称为一个分区或桶(bucket)。分区字段可以基于数据的特定属性进行定义,例如时间戳、地理位置、业务ID等。
3
注意事项
1.Doris部署时候建议单独部署在一个服务器上。
2.要先配置字段然后再配置分区字段。
数仓建设

数仓建设中分为维度表和事实表,通过Doris数据库来进行数仓的建设,提高数据查询的性能,下面是数仓建设的步骤说明。
1功能场景
数仓建设是创建维度表和事实表,维度表和事实表的定义和区别。维度表是描述业务实体的属性,比如时间、产品、客户等,而事实表记录业务过程的度量值,如销售额、订单数量等。通过Doris创建事实表和维度表,在通过ESB企业数据总线生产调度流程拉取ODS的数据,最后通过维度表和事实表进行数仓模型的创建。
2
功能说明
数据源头配置Doris数仓数据库。
注意将数据库选择为Doris以及添加对应的来源表和日志标题,点击保存后来到字段信息标签添加对应的业务字段,如图:
添加好业务字段后,回到基础信息标签中去配置Doris数据库,如图:
分配个数: 分配个数通常指的是数据分片(shard)的数量。Doris数据库通过将数据划分为多个分片来实现分布式存储和计算,每个分片存储一部分数据,分布在不同的节点上。这样可以提高数据查询和处理的并行度,从而提升性能和效率。
通个数: 指的是表的分区(partition)数量。分区是将表中的数据逻辑上划分成多个部分,每个分区称为一个桶(bucket)。这种分区可以基于列的值范围、哈希函数等进行定义,旨在优化查询性能和数据管理。
分区字段: 指的是用于定义表分区的列或列组合。分区字段决定了如何将表中的数据逻辑上划分为多个部分,每个部分称为一个分区或桶(bucket)。分区字段可以基于数据的特定属性进行定义,例如时间戳、地理位置、业务ID等。
配置好后来到字段信息标签,点击创建表按钮,进行Doris表的创建如图:
在数据库中就可以看到刚刚创建的表,如图:
3
注意事项
1.根据数据量和查询需求,设置合理的分区和分桶策略
2.避免使用复杂的嵌套查询和不必要的计算操作,以减少查询开销。
分析模型

分析模型中数据集、立方体以及指标构成的,通过模型配置不同指标的数据集合,本次介绍支持Doris创建表以及Doris创建视图,以及后续的配置。
1功能场景
分析模型是对数据构建展现数据模型功能,分析模型分为数据集、立方体、指标集、业务报表、多维报表,通过上述Doris数据中创建数仓模型构建分析模型,立方体来源于数据集,指标集来源于数据集或者立方体、业务报表来源于数据集、多维分析来源立方体。
2
功能说明
通过创建数仓模型,来构建数据集或者立方体通过Doris数据库进行查询。
在配置完模型后,在数据集中先选择刚刚创建的模型,如图:
立方体配置中新增如图的立方体:
再配置对应的立方体信息:
以上立方体就配置完毕了。
3注意事项
1.分析模型中可以如果单表才能创建Doris数据视图。
2.定期监控 Doris 集群的性能指标(如查询延迟、吞吐量、资源利用率等),及时发现并解决性能瓶颈。
数据应用

Doris数据应用应该分为以下3种,集成应用通过ESB生产的调度流程中进行插入数据时候应用,展现时候查询加快了大数据量查询速度,服务查询时候也是加强查询效率。
1集成应用
通过DAP生产流程只是数据插入组件选择的是Doris数据库,因为Doris插入语句和mysql插入语句是相同的,所以直接复用即可。
调用流程执行后在数据库中可以看到对应的数据。
2展现应用
在导航管理中新增Doris主题,如图:
点击页面布局,然后点击组件配置,将对应的维度和指标都进行配置:
点击保存后来到组件配置页面即可看到刚刚配置的组件:
在WEB端也可以看到对应的组件:
3
服务应用
首先在数据集中选中数据集后点击发布按钮:
发布后在查询服务中找到刚刚发布的服务:
双击服务后点击执行按钮就可以看到对应的数据:
总结说明

Doris数据库凭借其高性能实时分析、高并发处理和灵活扩展能力,在DAP数据分析平台中得到了充分应用。通过结合Doris数据库,DAP平台实现了高效的数据存储与快速查询,显著提升了数据处理能力和分析效率,为企业提供了强大的决策支持和竞争优势。
1过程总结
在将Doris数据库应用于DAP数据分析平台的过程中,首先需要进行数据库和平台的集成,确保数据能够高效地在两者之间流动。通过设置合理的分区字段和分配适当的桶个数,实现数据的优化存储和高效查询。随后,利用Doris数据库的高并发和低延迟特性,DAP平台能够实时处理和分析大量数据。结合Doris的自动分区和物化视图功能,进一步提升数据查询和处理性能。在实际应用中,这种结合显著提高了数据分析的效率和准确性,为企业提供了快速、可靠的数据支持和决策依据。
2重要事项
此篇文章主要针对DAP数据分析平台如何应用Doris数据库进行介绍,我们需要注意以下几点:
1.合理设置Doris配置:在使用Doris数据库时要注意配置分配个数和桶个数以及分区字段,分配个数和桶个数不要超过系统的数量,否则会创建表会创建失败。
2.优化查询和索引: 在DAP数据分析平台中,针对常用的查询进行优化,创建合适的索引和物化视图。这样可以显著提高查询速度,减少响应时间,提升整体数据处理和分析的效率。
3.索引与物化视图: 根据查询需求创建索引和物化视图,加速常用查询,提升系统响应速度。
3
说在最后
Doris数据库与DAP数据分析平台的结合,不仅提升了数据处理和分析的效率,还为企业提供了灵活、可靠的技术支持。这种融合解决了传统数据处理的瓶颈问题,助力企业在竞争中快速做出明智决策。
未来,随着数据规模和复杂性的不断增加,Doris数据库在DAP平台中的应用将更加广泛和深入。企业可以借助这套强大的数据分析解决方案,充分挖掘数据价值,推动业务创新和发展,赢得更大的市场优势。
推荐阅读


文章转载自数通文轩,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论