暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

柏睿数据+PolarDB湖仓一体联合解决方案(四)

PolarDB农夫山泉 2023-09-21
207

PolarDB PostgreSQL版(以下简称 PolarDB-PG)是一款阿里云自主研发的企业级数据库产品,采用计算存储分离架构,兼容 PostgreSQL 与 Oracle。PolarDB-PG 的存储与计算能力均可横向扩展,具有高可靠、高可用、弹性扩展等企业级数据库特性。同时,PolarDB-PG 具有大规模并行计算能力,可以应对 OLTP 与 OLAP 混合负载;还具有时空、向量、搜索、图谱等多模创新特性,可以满足企业对数据处理日新月异的新需求。

五、基于联邦式的解决方案

柏睿数据的数据联邦是指隐藏底层数据源(关系型数据库、NOSQL、NEWSQL、数据仓库)等技术访问细节,将数据源的抽象和聚合要求将物理资源抽象出来,对外为用户提供一个统一的数据接口。用户在定义数据源的初始化配置文件后,能够自由查询和操作各个目标源的数据源,一言简之,数据虚拟化是基于联邦的云化产品,数据虚拟化技术实现前端与后端多源异构的解耦,轻量级简单解决数据集成多源异构的困难。

数据联邦本身具备核心处理技术,但是容许底下管理数据源保留自治处理的能力。数据联邦集群支持分布、集中、自治与异构,由一批互相协作但保持各自自治性的数据系统组成,类似联邦,中央既统一调控,又保留特殊地区独立自治性。

RapidsDB是一款基于内存的分布式非共享MPP存储和计算构架的分析型数据库,具备完整的数据库管理系统特征,提供高校完备的数据库管理功能。同时具备关系型数据库特征:事务支持、标准SQL支持、标准JDBC驱动。支持高可靠、高可用、高性能。数据联邦上的能力数据源支持MYSQL、Oracle、Postgres、Greeplum、JDBC、Hadoop等 相关产品。
整体上,RapidsDB的技术架构可以分为五层,从下到上依次为:
• 存储层:该层包含两个部分,第一个数据源为自有数据源,为柏睿数据自研的分布式内存存储引擎;另一个为其他数据源,RapidsDB依靠跨源异构的查询能力,通过连接器对其他数据源内的数据进行访问,例如:HFDS、Hive、MYSQL等。
• 联邦层:统一实现连接器的创建、管理、使用等功能。
• 执行层:RapidsDB有自己的完全并行的MPP(大规模并行处理)执行引擎,负责执行RapidsDB SQL编译器和优化器生成的查询计划。MPP执行引擎将使用联合连接器访问底层数据源。
• 编译层:RapidsDB有一个高级的SQL编译器和优化器,负责执行用户的SQL查询并构建一个查询计划,充分利用底层数据源的原生SQL功能。所生成的查询计划将下推可由数据源直接执行的部分,然后使用RapidsDB MPP执行引擎执行其余的计划,只需从所需的底层数据源中提取数据以完成查询的执行。
• 服务层:RapidsDB提供了一个命令行界面,即rapids-shell,用于配置连接器和提交查询。同时提供了一个基于Web的管理控制台,即RapidsDB Manager,用于配置和管理RapidsDB群集。

RapidsDB的动态查询优化提供了一个轻便但功能强大的查询动态处理框架,对各种数据源都有广泛的适用性。RapidsDB联邦连接器完全参与优化过程,只需通过同一个SQL语句,一个联邦查询可以充分利用多个底层系统的数据库和数据库模式本身处理数据的能力来加速查询。

由于每一个查询可能涉及到多个数据源,RapidsDB优化器会与连接器交互工作,以确定执行计划中的哪些操作可以下推到哪个底层数据源。给定到连接器的操作会被凝缩成一个由相对应的连接器和数据源负责执行的构建模块。查询计划中没有下推的剩余部分将由RapidsDB执行引擎负责执行。

基于知识库的模型可以使连接器根据底层数据源的不同功能来指导动态优化过程通过动态地在一个凝缩的查询中插入指导性语句,知识库协助连接器收集多源异构数据的统计信息,并将此查询下推到相关底层数据源。

虽然底层的数据源各不相同,但RapidsDB可以让用户在查询数据的时候将不同的数据源集合视作一个单一的数据库系统,并利用标准的SQL来对此联邦视图进行查询。对于一个给定的查询,自动查询优化将帮助ヾ到最佳的执行方式,将工作分配给不同的底层数据源,然后将结果有效整合。这种方式可以简化原本繁复的数据准备工作,让用户可以更专注于数据分析以解决相关的业务问题,而不是将大量时间花费于数据准备或者为了将数据库性能最大化,人工调整查询以适应不同的数据源系统。动态查询优化让多源异构数据的整合变得更灵活与高效。

结语

PolarDB的分布式特性以及存储计算分离架构为其带来了水平扩展、分布式事务、混合负载等能力,新方案融合数据湖和数据仓库成为一种新型的开放式数据平台架构,PolarDB做湖,RapidsDB做仓,将数据湖和数据仓库的优势充分结合,通过RapidsDB的federation能力构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理、分析和管理功能。强强联手,可以发挥出更大的威力。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

文章被以下合辑收录

评论