hadoop相关进程介绍

zzl001 发表于 2018-10-29 10:57:39

　　1.NameNode:
　　相当于一个领导者，负责调度，比如你需要存一个1280m的文件
　　如果按照128m分块那么namenode就会把这10个块（这里不考虑副本）
　　分配到集群中的datanode上并记录对于关系。当你要下载这个文件的时候namenode就知道在那些节点上给你取这些数据了。它主要维护两个 map 一个是文件到块的对应关系一个是块到节点的对应关系。
　　2. secondarynamenode：
　　它是namenode的一个快照，会根据configuration中设置的值来
　　决定多少时间周期性的去cp一下namenode，记录namenode中
　　的metadata及其它数据
　　3. NodeManager（NM）:
　　是YARN中每个节点上的代理，它管理Hadoop集群中单个计算节点
　　包括与ResourceManger保持通信，监督Container的生命周期管理，
　　监控每个Container的资源使用（内存、CPU等）情况，追踪节点健
　　康状况，管理日志和不同应用程序用到的附属服务（auxiliary service）
　　4.DataNode:
　　a.DataNode的需要完成的首要任务是K-V存储
　　b.完成和namenode 通信，这个通过IPC 心跳连接实现。
　　此外还有和客户端其它datanode之前的信息交换
　　c.完成和客户端还有其它节点的大规模通信，这个需要直接
　　通过socket 协议实现。
　　5.ResourceManager:
　　在YARN中，ResourceManager负责集群中所有资源的统一管理和分配，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序（实际上是ApplicationManager）
　　RM与每个节点的NodeManagers (NMs)和每个应用的ApplicationMasters (AMs)一起工作。
　　a.NodeManagers 遵循来自ResourceManager的指令来管理单一节点上的可用资源。
　　b.ApplicationMasters负责与ResourceManager协商资源与NodeManagers合作启动容器
　　6.Hadoop2 MR-JobHistory服务介绍
　　1）MR-JobHistory服务目标
　　主要是向用户提供历史的mapred Job 查询
　　详细解释：
　　a）在运行MR Job时，MR 的 ApplicationMaster会根据mapred-site.xml配置文件中的配置，将MR Job的job history信息保存到指定的hdfs路径（首先保存到临时目录，然后mv到最终目录）
　　b）如果在yarn-site.xml中，没有配置nodemanage的LogAggregation功能，则historyserver无法提供mr日志明细查询的功能（在提交mr job时，yarn和mapred的配置都是必须的）
　　c）historyserver向外提供两个接口，web接口可以提供jobhistory和明细日志查询的功能，而restApi只提供jobhistory查询的功能

页: [1]

运维网's Archiver

hadoop相关进程介绍