暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

从0开始搭建大数据平台之认识数据平台

叁金大数据 2020-04-13
179


大数据火热了这么长时间,大中小公司都已经建设或者开始建设大数据平台了,甚至已经不局限于大数据平台而是建设数据中台。在这样的背景下相信小伙伴们对“大数据”都不陌生了,了解了大数据之后,我们应该如何更深入的学习以及应用呢?这就需要我们将站在更高的,企业级的角度,去审视流行的开源组件,构建我们的大数据平台。

从本篇文章开始,我们一起来基于现有的开源项目,创建一个通用型的大数据平台,一起来看一下吧。

什么是大数据平台

随着数据日益增多,我们都会提到一个大数据开源框架叫做Hadoop。你的领导发现这么一个好东西之后会告诉你,小x啊,你得学习下新技术啊,大数据现在很火,Hadoop这玩意儿听说很不错,我们也来部署一套吧。

于是我们部署了Hadoop集群,学习了Hadoop的基本使用,了解了Hadoop的功能与适用场景。你发现Hadoop确实是为了大数据处理而生的

但是大数据不只是存储+计算

首先我们需要将我们的数据采集录入到Hadoop,然后为了能够规范的管理数据,快速的找到数据,我们还需要按照一定的规则建设数据仓库。 

数据仓库构建完成之后就需要对数据进行统一计算了。由于Hadoop自身的MapReduce效率不高,所以我们还需要引入效率更高的分布式计算引擎。

我们的Hadoop集群势必要服务于业务,所以要把业务流程抽象成一个一个的任务,利用调度系统进行任务的执行和调度,生成业务数据。  

通过查询引擎可以很方便的对结果数据进行查询分析,体现出数据的价值,辅助用户决策,提供有力的数据支撑。

我们所提到的大数据平台就是将这个流程完成的串联到一起,围绕这我们的Hadoop集群,集成一些开源的第三方组件,开发一个面向开发人员和数据分析人员和业务人员的统一数据平台。

大数据平台优势

我们前面提到了很多个统一,包括数据统一计算、任务统一调度、数据统一查询、用户统一使用等等

那么什么是统一,怎样做才叫统一呢?统一又有什么好处呢?我们需要对比着看。先看我们不统一之前是怎样的。

我们的业务系统各自有各自的数据,数据不互通或者互通的成本较高,各个业务的计算资源也不共享。造成了我们所谓的数据孤岛和服务孤岛,浪费了一定的资源。

而且各个服务独立存在,虽然可以保证用户的统一,但是权限却难以实现统一,比较难维护,而且不容易进行扩展。

而经过大数据平台统一之后呢?首先我们将存储资源和计算资源进行了统一。我们依托于Hadoop集群进行建设。对数据统一存储,统一计算,在数据仓库层进行权限认证操作,保障数据的安全。

同时支持和业务进行关联,将业务抽象成一个一个的任务,对任务进行调度执行,满足业务需求。

大数据平台将业务模块进行抽象,使其插件化,流程化,平台化,产品化。打造一个可扩展易使用的企业级通用的大数据平台。

思考

经过前面的介绍,我们可以思考一下:

一个通用型的大数据平台,包含哪些模块。

各个模块实现什么功能,有哪些开源项目?

我们应该如何设计和规划大数据平台?


往期精彩回顾
SQL优化器执行过程之逻辑算子
Calcite 项目及使用介绍
SQL优化器简介


开启日更模式~



文章转载自叁金大数据,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论