暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

从0开始搭建大数据平台之常见的数据平台架构

叁金大数据 2020-04-15
876

直击灵魂深处的拷问:我们为什么要建设数据平台?



既然需要我们重新去设计架构一个大数据平台来解决问题,肯定是传统的方案无法解决大数据所带来的问题了。上篇文章我们提到了大数据平台所应该具备的能力,这些能力也清晰的展示了我们现阶段所面对的问题。

面临的问题


量变引起质变

数据量越来越大,数据的维度越来越多。企业内部各个系统之间都有自己的数据,这些数据从物理层面上就被孤立的存储,这就是我们经常提到的数据孤岛。 
在海量数据下,数据交互难度和技术难度都随之增大。通过传统的方案没办法对数据进行全量的整合使用,数据没有关联的能力,丧失了大数据的优势。之前老的方案面向单一的业务和需求,属于服务孤岛,同时也造成了资源的浪费。多个不同的系统设计没有遵循统一的规则,访问方式不统一,用户很难集中使用。 而且存在维护和扩展的瓶颈。

三个解决和两个提升


在豆瓣上有一篇帖子归纳的很好,他把为什么建设大数据平台总结成了三个解决和两个提升。 
  • 解决“坐井观天”问题

  • 大数据时代不同行业的关联性越来越强,打破数据行业壁垒,引入外部数据源 进行多元数据汇聚融合,将数据孤岛串联起来构成数据仓库甚至数据湖

  • 解决“一叶障目”问题

  • 之前由于计算能力的限制,我们对于数据的处理只关注于小部分数据,对全量数据无能为力。而大数据技术发展到尽头,我们可以使用全量的数据,得到更为精确的结果。

  • 解决“瞎子摸象”问题

  • 前面我们提到服务孤岛的问题,不同业务系统的存在、计算能力的割裂,很难看到数据的内在联系。而大数据平台就是为了提供一个尽可能全局、综合的数据视图。

  • 提升“一叶知秋”的能力

  • 一叶知秋”比喻通过个别细微迹象,推测出整个形式的发展趋势和结果。意思呢就是收集准确的数据、全局的数据, 通过大数据平台计算得到数据间的相关关系,从多个角度看待问题,辅助我们做出正确的决策。

  • 提升“运筹帷幄,决胜千里”的能力

    大数据从诞生开始就是立足于决策,旨在高效帮助用户决策,从而实现更大的商业价值。


带着问题出发,了解了我们面临的问题,明确了数据平台所应该具备的能力,学习了常见的大数据开源组件之后,我们就要磨刀霍霍,准备构建自己的大数据平台了。开始构建之前,我们还是需要参考参考国内各大公司的技术架构,少走一些弯路。

主流公司的大数据架构

我们一起看看主流大公司的大数据平台都是怎么设计的,都包含哪些模块,用了哪些技术。我们这里所介绍的内容均从各大公司对于大数据平台的分享文章及ppt获取到的,大家有兴趣的话可以搜索一下相关分享。


hortonworks

想必大家对于hortonworks都不陌生,它的很多大数据开源组件我们都用过,图中就是hortonworks全家桶了。
数据存储 HDFS\S3、资源调度Yarn、计算引擎、实时数据分析、机器学习、分布式数据库、权限和元数据管理、运维与监控等等

美团


七牛


七牛云的架构图看上去层次结构比较清晰,功能也非常的全面。从下往上包括基础的监控,到数据的收集、存储、资源调度、数据计算、数据查询与分析、数据可视化等等几乎涵盖了我们想要拥有的所有功能。


知乎

滴滴


通过这几张架构图,我们对于一些大公司的数据平台架构有了一个初步的了解,大家可以对这些架构进行对比,他们的功能模块和层级架构基本上是大同小异的,层次划分包括数据采集、数据存储、数据计算、数据应用、集群工具等等,所使用的技术包括我们也常用的HDFS、YARN、Hive、HBase、Spark、Flink、Zeppelin、Hue等等。后面我也会转载一些架构介绍的文章,我们可以借鉴一下他们的设计思想,同时思考一下我们的数据平台架构和技术选型。都需要有哪些组件,实现哪些功能。

数据平台的软实力

建设大数据平台并不是一蹴而就的事情,我们需要考虑到很多方面。如果说数据平台的功能是它的硬实力的话,那么平台的稳定性、数据的安全性以及架构的可扩展性就属于数据平台的软实力了。

  • 稳定性:大数据平台支撑量级较大的数据处理和程序计算
  • 安全性:保障数据安全是大数据平台不可忽视的问题
  • 可扩展性:随着数据和业务的增加,可扩展是必修课

同时,我们要做的是一个平台,是一个面向用户的产品。在实现基础功能的前提下我们也要一步一步的对其进行优化,使其逐步从工具化过度的平台化,最终进行产品化形成大数据产品。


  • 工具化:以业务维度对常用操作工具化,避免重复劳动
  • 平台化:将多种组件和工具集合起来,做成统一平台
  • 产品化:在平台的基础上提高易用性,达到产品级输出

往期精彩回顾
从0开始搭建大数据平台之认识数据平台
从0开始搭建大数据平台之数据平台的能力
SQL优化器简介


又水一篇,我真是机智~


文章转载自叁金大数据,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论