hadoop 2(0.23.x) 与 0.20.x比较

lujiguo115 发表于 2016-12-11 07:41:58

　　以下大部分内容来自网络,这里主要是进行学习,比较
　　1、Hadoop 0.20.*的局限性

　　HDFS单NameNode的不足
1）扩展性问题。可以随着数据量进行水平扩展，而元数据服务器不能扩展。

  2）随着文件数目的增长，元数据服务器的压力变大。据统计，2.5亿个文件在NameNode中Namespace占据的大概64GB的内存空间。
   3）文件操作的吞吐率受到单个元数据服务器的限制。目前，Hadoop 0.20.*版本可以达到120k readops/sec，6000writeops/sec.
   4)隔离性的问题。

MapReduce编程模型与运行时环境紧耦合
1）集群资源利用率较低。整个集群资源按照固定Slot为单位进行资源分配，没有考虑MapTask、ReduceTask任务的特点和逻辑关系进行不同的配置。
  2)仅支持MapReduce编程模型。
　　

单个JobTracker的单点故障和扩展性
　　1）JobTracker的负载较重。JobTracker负责作业和任务的初始化、以及提供TaskTracker的RPCServer、任务的调度等任务。因此，JobTracker一旦故障，所有执行的任务的状况丢失。
  2）扩展性问题。
　　2.Hadoop-2(0.23)的NewFeatures
　　HDFS Federation
　　1)Namespace与block Management解耦。
　　MapReduce NextGen aka YARN
　　1）编程模型与运行时框架解耦。
　　2）运行时环境的扩展性与单点故障问题。
　　可见,hadoop 2是针对性地解决了hadoop 0.20.x中的问题.
　　ref:
Hadoop0.23.0初探1---前因后果
　　补充一下线上资源:

[*]1.0.X - current stable version, 1.0 release
[*]1.1.X - current beta version, 1.1 release
[*]2.X.X - current alpha version
[*]0.23.X - simmilar to 2.X.X but missing NN HA.
[*]0.22.X - does not include security
[*]0.20.203.X - legacy stable version
[*]0.20.X - legacy version

页: [1]

运维网's Archiver

hadoop 2(0.23.x) 与 0.20.x比较