大数据火热了这么长时间,大中小公司都已经建设或者开始建设大数据平台了,甚至已经不局限于大数据平台而是建设数据中台。在这样的背景下相信小伙伴们对“大数据”都不陌生了,了解了大数据之后,我们应该如何更深入的学习以及应用呢?这就需要我们将站在更高的,企业级的角度,去审视流行的开源组件,构建我们的大数据平台。
从本篇文章开始,我们一起来基于现有的开源项目,创建一个通用型的大数据平台,一起来看一下吧。
什么是大数据平台
随着数据日益增多,我们都会提到一个大数据开源框架叫做Hadoop。你的领导发现这么一个好东西之后会告诉你,小x啊,你得学习下新技术啊,大数据现在很火,Hadoop这玩意儿听说很不错,我们也来部署一套吧。
于是我们部署了Hadoop集群,学习了Hadoop的基本使用,了解了Hadoop的功能与适用场景。你发现Hadoop确实是为了大数据处理而生的
但是大数据不只是存储+计算。
首先我们需要将我们的数据采集录入到Hadoop,然后为了能够规范的管理数据,快速的找到数据,我们还需要按照一定的规则建设数据仓库。
数据仓库构建完成之后就需要对数据进行统一计算了。由于Hadoop自身的MapReduce效率不高,所以我们还需要引入效率更高的分布式计算引擎。
我们的Hadoop集群势必要服务于业务,所以要把业务流程抽象成一个一个的任务,利用调度系统进行任务的执行和调度,生成业务数据。
通过查询引擎可以很方便的对结果数据进行查询分析,体现出数据的价值,辅助用户决策,提供有力的数据支撑。
我们所提到的大数据平台就是将这个流程完成的串联到一起,围绕这我们的Hadoop集群,集成一些开源的第三方组件,开发一个面向开发人员和数据分析人员和业务人员的统一数据平台。
大数据平台优势
我们前面提到了很多个统一,包括数据统一计算、任务统一调度、数据统一查询、用户统一使用等等
那么什么是统一,怎样做才叫统一呢?统一又有什么好处呢?我们需要对比着看。先看我们不统一之前是怎样的。
我们的业务系统各自有各自的数据,数据不互通或者互通的成本较高,各个业务的计算资源也不共享。造成了我们所谓的数据孤岛和服务孤岛,浪费了一定的资源。
而且各个服务独立存在,虽然可以保证用户的统一,但是权限却难以实现统一,比较难维护,而且不容易进行扩展。
而经过大数据平台统一之后呢?首先我们将存储资源和计算资源进行了统一。我们依托于Hadoop集群进行建设。对数据统一存储,统一计算,在数据仓库层进行权限认证操作,保障数据的安全。
同时支持和业务进行关联,将业务抽象成一个一个的任务,对任务进行调度执行,满足业务需求。
大数据平台将业务模块进行抽象,使其插件化,流程化,平台化,产品化。打造一个可扩展易使用的企业级通用的大数据平台。
思考
经过前面的介绍,我们可以思考一下:
一个通用型的大数据平台,包含哪些模块。
各个模块实现什么功能,有哪些开源项目?
我们应该如何设计和规划大数据平台?
开启日更模式~