日前,滴普科技分析型数据库 FastData for DLink V2.0(以下简称DLink),通过中国信通院第十三批分布式分析型数据库基础能力评测。
DLink是滴普科技自主研发的湖仓一体、流批一体的实时PB级数据引擎,可以满足企业大规模的数据分析要求和探索式分析需求,支持数据处理、数据分析、数据科学、数据共享等多工作负载,为企业形成完整的数据链路能力。
技术架构上,该产品采用存算分离架构,支持结构化、半结构化、非结构化等多种数据的统一存储,帮助企业建立流批一体、湖仓一体的分析型数据库,提供一站式数据探索与数据开发能力,实现PB级实时数据分析,进而无缝连接大数据生态。
DLink架构图
1、采用存算分离架构,提升数据可扩展性,降低企业系统成本
在数据库系统的发展历史中,原则上所有系统的计算都是和存储紧密耦合的,而DLink采用存算分离架构,企业可以将需要持久化的数据部署在网络存储中,根据业务特性动态升降配和扩缩容,水平扩展可以变得非常快(秒级别)。同时,也支持企业读取离线数仓数据,系统负载均衡调度更加灵活,利用率更高,并以更低成本交付部署生产系统。
2、支持多模数据的存储与处理,实现PB级数据存储部署
作为新一代的大数据分析引擎,DLink以湖仓一体技术为核心,可支持结构化、半结构化、非结构化数据存储,实现PB级大规模存储部署,提供从批处理、流式计算、交互式分析到机器学习等各类计算引擎,使得数据库能够进行跨部门、跨业务的数据统一存储与管理,实现多业务数据融合,支撑多样化的应用服务。
3、支持流批一体,提供批量查询与实时分析等数据处理能力
DLink采用Kappa Plus架构实现一套架构同时满足流和批的处理:一方面简化了企业的数据基础设施,更有效地利用资源,对实时数据处理和历史数据进行重复计算;另一方面,将数据源做一个实时处理或者离线处理(批处理),不管是实时数据还是离线数据,都能使用统一的计算平台进行处理,为企业提供高效、简洁、低成本的数据流批一体的数据处理能力,实现海量数据的批量查询与亚秒级交互式分析。
4、采用云中立理念,支持企业跨云部署
在云原生的能力构建中,DLink将身份认证统一、权限管理统一,既可以跟云平台厂家打通,也可以跟企业的线下整个体系打通,包括K8s管理、质量监控(内部链路监控)、基础的数据应用管理等。同时,面向未来混合云的部署方式,可以将数据的计算、模型的处理放到云端,做数据的共享、交换,但数据本身集中在本地私有云中,满足快速增长的业务需求,对业务系统产生反哺作用。
5、兼容多类生态系统,多种数据源实时入湖
DLink可以支持Oracle、MySQL、PostgreSQL、Hive等20多种异构数据源接入与集成,将传统数仓中的数据实时入湖,让企业轻松地发现、导入、加载和合并数据,支撑数据资产管理,满足数据查询、分析、机器学习以及应用开发。
6、事务支持(ACID),保障数据事务一致性
传统的数仓无ACID能力,但企业内许多数据的处理过程通常会并发读写数据,因此DLink采用Iceberg作为表式服务,提供具有无架构设计的键/属性存储,可以添加、删除或修改文件,确保了多方并发读写数据的一致性,从而确保在数据湖规模下工作时的最佳性能。
7、统一元数据管理,追踪数据血缘关系
基于 Iceberg、Flink 和 Trino 技术栈,结合客户的实际场景和需求,DLink构建了统一元数据视图,可以集成大规模元数据管理,表和分区的所有元数据通过统一的元数据访问,通过元数据管理工具追踪数据血缘关系。
客户案例
某时尚产业集团
1、客户需求
之前有多套传统数仓,数据量达到近3PB,且每日有10亿条新增数据,特别是随着新兴业务场景的不断涌现,非结构化、半结构化的数据逐渐增多,单一的数据仓库已难以匹配日益增长的数据复杂度需求,对数据时效性的需求愈发重要,需要满足实时业务场景需求,实现精细化运营,增加数据价值。
2、解决方案
滴普科技针对企业数据平台建设的需求,升级已有CDH平台,将原有的多个数仓整合为流批统一、湖仓一体架构的统一数据平台。同时,构建“数据湖&湖仓一体”项目,实现海量、多模数据入湖和存储、湖仓数据应用、数据全链路追踪、数据智能化运维等多项功能,支撑和反哺业务层,降低企业的运营成本。
3、项目成果
(1)核心大数据组件升级,从原来的Hive,Spark离线计算等技术能力,升级为Flink、Iceberg,把之前T+X的分析时间缩短为T+0实时分析。
(2)通过分析商品、店铺主数据、交易数据、外部数据等数据源,使用模型来进行滚动销量预测,精准率达到90%。
(3)支持先将海量的多模数据存储入湖,在算力允许时,及挖掘深度的业务分析场景后,从数据湖中抓取数据分析。
2015年,作为国家高端专业智库、产业创新发展平台,中国信息通信研究院(以下简称“中国信通院”)逐步开展数据库领域的技术研究、标准编制、评测评估、政策支撑、生态建设等工作。六年来,中国信通院见证了国内数据库顶层设计不断出台,关键技术逐渐突破,产业生态日益繁荣,应用范畴持续扩展,标准化工作有序有力进行,成为国家在数据库领域最重要的支撑单位,已搭建国内最权威的第三方数据库评测评估体系。产品评测体系包括基础能力、性能、稳定性和安全性等;服务评估体系包括通用服务能力和专项服务能力评估。每半年开展一批评测评估,截止2021年11月底,已开展13批产品能力评测,共计完成58家企业93次基础能力测试、35次性能测试和4次稳定性测试。
基础能力测试方面,已推出分布式分析型数据库、分布式事务型数据库、关系型云数据库、时序数据库、图数据库、键值型内存数据库和文档数据库等评测项目。
性能测试方面,中国信通院云大所先后自研推出多个性能测试工具并与业界主流产品完成适配,包括面向车联网场景的时序数据库性能测试工具DataBench-TS、面向金融核心系统场景的事务型数据库性能测试工具DataBench-T(已开源)和面向金融、电信核心场景的分析型数据库性能测试工具DataBench-A,相较国外TPC系列性能测试基准,上述工具更加贴合我国实际应用场景,能够以图形化、自动化的形式,在信通院提供的统一硬件环境下执行测试,更加公平公正、客观真实地反映数据库产品之间的差异。
稳定性测试方面,已推出国内首个基于混沌工程理念的数据库稳定性测试工具,通过对系统注入CPU、内存、硬盘、网络、线程等方面扰动,观测数据库系统韧性表现。该评测评估体系见证了国内数据库产品由弱变强、产品生态逐渐丰富的过程,圈定了国内数据库产品厂商第一梯队,成为了数据库产业发展的风向标。
针对数据库服务能力,已开展3批评估,共计完成8家企业14个项目的评估。
服务能力分为通用服务能力和专项服务能力,通用服务能力依托《数据库服务能力成熟度模型》标准,面向服务提供方进行评估,围绕数据库的规划设计、实施部署和运维运营三个能力域细分为27个能力项,每个能力域可以单独评估,评估结果由低到高依次分为初始级、可重复级、稳健级、量化管理级和优化级五个等级。
专项服务能力依托《数据库应用迁移服务能力分级要求》《大数据 SQL质量管理平台能力分级要求》等标准,对异构数据库迁移、SQL质量管控等环节所应用的常见工具链的能力进行评测,评估结果由低到高分为基础级、增强级和优化级三个等级,目前,数据库应用迁移已完成第一批评测,阿里云、华为云和腾讯云分别评为优化级、优化级和增强级。
第十四批可信数据库评测火热进行中
2022年,中国信通院数据库评测体系已升级为“可信数据库”评测体系,第十四批“可信数据库”评测报名现已开始,本批评测将于5月中旬完成,召开评审会对评测结果进行统一集中评定后,将于6月大数据产业峰会发布结果和证书,欢迎联系咨询!
商务咨询:王月 18610035376
技术咨询:刘思源 13691032906