一种兼容数据仓库和数据湖的数据存储平台构建方法
技术领域
[0001]
本发明涉及数据处理技术领域,具体为一种兼容数据仓库和数据湖的数据存储平
台构建方法。
背景技术
[0002]
现状:随着大数据时代的到来,越多越多的大数据产品出现,其中数据仓库和数据
湖是两种比较有代表性的大数据产品为用户提供服务。
[0003]
1 .数据湖:数据湖是对各类未经处理的原始数据的存储,包括任意规模的结构化、
半结构化和非结构化数据,需要支持对所有用户的便利访问。数据湖可以被用来当作数仓
或其他大数据应用的数据来源。
[0004]
2 .数据仓库:数据仓库适用于作为一般分析的数据库选择,包括报表、数据大盘、
交互式分析和其他高性能分析。数仓一般仅包含经过处理和精炼的数据。
[0005]
问题:
[0006]
因为两种产品的使用场景不同,数据湖存储未经加工的原始数据数据,包括结构
化、半结构化和非结构化,数据仓库存储经过处理和精炼的数据。所以一般情况下会被当做
两个彼此独立的产品为用户提供服务,数据湖和数据仓库分别管理各自内部的数据,这种
现状所带来的问题主要包括两方面:
[0007]
1 .存在着大量的数据冗余,造成极大的存储成本浪费
[0008]
企业中同时存在着大量的即需要保留原始数据,同时又要做经一处理和精炼的数
据,那么这部分数据就需要被同时保存在数据湖和数据仓库中,造成存储成本浪费
[0009]
2.无法面向用户提供全局统一的数据管理视图
[0010]
这个问题比较容易理解,因为在两个产品之间存在着大量的相同数据,而且数据
湖和数据仓库两个产品的数据目录是彼此独立的,这就造成了用户无法全局统一的对数据
进行管理,无法看清全局数据全貌。
发明内容
[0011]
本发明的目的在于提供一种兼容数据仓库和数据湖的数据存储平台构建方法,以
解决上述背景技术中提出的存在着大量的数据冗余,造成极大的存储成本浪费、无法面向
用户提供全局统一的数据管理视图的问题。
[0012]
为实现上述目的,本发明提供如下技术方案:一种兼容数据仓库和数据湖的数据
存储平台构建方法,包括以下步骤:
[0013]
步骤1:采用列式存储以及行列混存对数据湖和数据仓库的数据进行存储;
[0014]
步骤2:对数据仓库和数据湖的存储层进行整合,并采用分区的方式独立区隔数据
湖和数据仓储的存储区域;
[0015]
步骤3:构建统一的元数据管理层,通过本层实现对上层应用负载屏蔽底层存储实
现细节,提供对上层应用负载的统一数据服务,进一步的可以面向用户提供全局统一的数
说 明 书
1/3 页
3
文档被以下合辑收录
相关文档
评论