直击灵魂深处的拷问:我们为什么要建设数据平台?
既然需要我们重新去设计架构一个大数据平台来解决问题,肯定是传统的方案无法解决大数据所带来的问题了。上篇文章我们提到了大数据平台所应该具备的能力,这些能力也清晰的展示了我们现阶段所面对的问题。
面临的问题
解决“坐井观天”问题
解决“一叶障目”问题
解决“瞎子摸象”问题
提升“一叶知秋”的能力
提升“运筹帷幄,决胜千里”的能力
大数据从诞生开始就是立足于决策,旨在高效帮助用户决策,从而实现更大的商业价值。
大数据时代不同行业的关联性越来越强,打破数据行业壁垒,引入外部数据源 进行多元数据汇聚融合,将数据孤岛串联起来构成数据仓库甚至数据湖
之前由于计算能力的限制,我们对于数据的处理只关注于小部分数据,对全量数据无能为力。而大数据技术发展到尽头,我们可以使用全量的数据,得到更为精确的结果。
前面我们提到服务孤岛的问题,不同业务系统的存在、计算能力的割裂,很难看到数据的内在联系。而大数据平台就是为了提供一个尽可能全局、综合的数据视图。
一叶知秋”比喻通过个别细微迹象,推测出整个形式的发展趋势和结果。意思呢就是收集准确的数据、全局的数据, 通过大数据平台计算得到数据间的相关关系,从多个角度看待问题,辅助我们做出正确的决策。
主流公司的大数据架构
我们一起看看主流大公司的大数据平台都是怎么设计的,都包含哪些模块,用了哪些技术。我们这里所介绍的内容均从各大公司对于大数据平台的分享文章及ppt获取到的,大家有兴趣的话可以搜索一下相关分享。
hortonworks

美团


七牛云的架构图看上去层次结构比较清晰,功能也非常的全面。从下往上包括基础的监控,到数据的收集、存储、资源调度、数据计算、数据查询与分析、数据可视化等等几乎涵盖了我们想要拥有的所有功能。
知乎

滴滴

通过这几张架构图,我们对于一些大公司的数据平台架构有了一个初步的了解,大家可以对这些架构进行对比,他们的功能模块和层级架构基本上是大同小异的,层次划分包括数据采集、数据存储、数据计算、数据应用、集群工具等等,所使用的技术包括我们也常用的HDFS、YARN、Hive、HBase、Spark、Flink、Zeppelin、Hue等等。后面我也会转载一些架构介绍的文章,我们可以借鉴一下他们的设计思想,同时思考一下我们的数据平台架构和技术选型。都需要有哪些组件,实现哪些功能。
数据平台的软实力
稳定性:大数据平台支撑量级较大的数据处理和程序计算 安全性:保障数据安全是大数据平台不可忽视的问题 可扩展性:随着数据和业务的增加,可扩展是必修课
同时,我们要做的是一个平台,是一个面向用户的产品。在实现基础功能的前提下我们也要一步一步的对其进行优化,使其逐步从工具化过度的平台化,最终进行产品化形成大数据产品。
工具化:以业务维度对常用操作工具化,避免重复劳动 平台化:将多种组件和工具集合起来,做成统一平台 产品化:在平台的基础上提高易用性,达到产品级输出
又水一篇,我真是机智~






