暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

(二) hadoop发行版本及构架的变迁

原创 张晓璞 2022-04-16
2021

Hadoop发行版本

image.png

Apache开源社区版本

  hadoop发展到现在,已经经历了十几年,目前我们能够在市面上接触到的版本,大致分为两大类,第一大类叫做开源社区版本,这个名字听起来很山寨,感觉这个开源社区一定不咋地,但是实际上,这个开源社区指的,就是Apache的开源社区,换句话说,这个版本,就是官方版本
  没错,这个就是官方发行版本,那官方版本法行的最大优点是什么呢,就是更新迭代非常的快,不管是大版本还是小版本,基本上每隔一段时间,固定的频率就会推出来,那当然,他的缺点也很明显了,你更新这么快,兼容性稳定性怎么样,肯定考虑不周了啊,毕竟我们干活的时候,不是只用这一家软件,其他集成的软件能不能跟得上,能不能兼容,这些都是问题。

http://hadoop.apache.org/

image.png

商业发行版本

  第二类软件,我们称之为商业发行版,就是一些商业公司,在Apache的开源协议之上,做一些服务的收费功能,这些收费的点通常就是用户感到痛点的地方,简单举个例子,用户觉得这种分布式集群搭建安装软件非常的繁琐,每台机器都要安装,每台机器都要配置,万一写错了咋办呢,这时候,商业公司说,没关系,你掏钱,我帮你提供在线一键安装,再比如,遇到问题客户无法解决,到底是哪台机器出了问题,商业公司说,没关系,你付费,我帮你提供解决方案,甚至我派人上门帮你解决问题,这些都是收费点。
  整个商业版本他的优点就是兼容性,稳定性非常好,因为他在发行之前一定会做精准的测试,能集成哪些软件,不能支持哪些软件,支持那些版本。缺点就是要收费,当然收费也没有问题,因为有好的服务,再就是版本更新会非常的慢,因为这个时候,他追求的就是什么才是最稳定的版本
  比如最著名的Cloudera和Hortonworks两家商业公司,合并了,下面链接大家可以自己看一下具体内容。

Cloudera:
https://www.cloudera.com/products/open-source/apache-hadoop.html
Hortonworks :
https://www.cloudera.com/products/hdp.html

image.png

本文档介绍的是Apache版的Hadoop,版本号为:3.3.0

Hadoop架构变迁(1.0-2.0变迁)

  • Hadoop 1.0
    HDFS(分布式文件存储)
    MapReduce(资源管理和分布式数据处理)

  • Hadoop 2.0
    HDFS(分布式文件存储)
    MapReduce(分布式数据处理)
    YARN(集群资源管理、任务调度)
    image.png

  首先我们来看一下致命性的变化,就是1.0版本到2.0版本的变迁,因为hadoop发展到现在,大概经历了三个大的版本变化,我们仔细对比一下,发现底层都是hdfs,没有什么变化,也就是说,数据怎么存的,没有什么变化。
  1.0到2.0最大的变化,就是对MR进行了大的拆分,并且引入了一个新的组件,叫做YARN。大家可以看下图,我们发现,这个mapReduce这个组件太累了,他除了要做集群的资源管理,还要做数据的处理,这一个组件身兼数职,并且这两件事情都非常的重要,那他的性能能好吗?
  完全不行啊,所以呢,到2.0版本之后,hadoop做了一个非常大的构架变化,就是把MR做了拆分,MR你只负责处理数据就可以了,资源管理的事情,交给专门的组件来做,这个组件就是YARN,并且YARN这个组件做的非常通用,不仅支持MapReduce,还支持其他的计算框架,什么Spark,Flink等。目前市面上1.0基本上没什么人用了,但是2.8、2.9这些还是有在用。

Hadoop架构变迁(3.0新版本)

Hadoop 3.0架构组件和Hadoop 2.0类似,3.0着重于性能优化。
image.png

  我们可以看一下,2.0到3.0的版本,构架已经没有大的改变了,一个软件要是天天变构架,那就太搓了,3.0版本侧重的是性能的优化,就比如说支持cup的多重运算、支持多重备份,并且内部的数据支持动态平衡,并且存储效率变高了,采用删码存储等等。以上就是hadoop各个版本之间的一些区别。

  • 通用方面
    精简内核、类路径隔离、shell脚本重构

  • Hadoop HDFS
    EC纠删码、多NameNode支持

  • Hadoop MapReduce
    任务本地化优化、内存参数自动推断

  • Hadoop YARN
    Timeline Service V2、队列配置


传送门

(一) 初探Hadpoop
(二) hadoop发行版本及构架的变迁
(三) hadoop安装部署集群介绍
(四) hadoop安装部署-基础环境搭建
(五) hadoop安装部署-配置文件详解
(六) hadoop集群启停命令、Web UI
(七) hadoop-HDFS文件系统基础
(八) Hadoop-HDFS起源发展及设计目标
(九) Hadoop-HDFS重要特性、shell操作
(十) Hadoop-HDFS工作流程与机制
(十一) 如何理解Hadoop MapReduce思想
(十二) map阶段和Reduce阶段执行过程

待更新

最后修改时间:2022-05-09 08:47:50
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论