Apache Hadoop 入门教程第四章

爱是王道 发表于 2018-10-28 13:27:03

　　运行在单节点的 YARN
　　您可以通过设置几个参数，另外运行 ResourceManager 的守护进程和 NodeManager 守护进程以伪分布式模式在 YARN 上运行 MapReduce job。
　　以下是运行步骤。
　　（1）配置
　　etc/hadoop/mapred-site.xml:
　　
　　
　　mapreduce.framework.name
　　yarn
　　
　　
　　1
　　2
　　3
　　4
　　5
　　6
　　etc/hadoop/yarn-site.xml:
　　
　　
　　yarn.nodemanager.aux-services
　　mapreduce_shuffle
　　
　　
　　1
　　2
　　3
　　4
　　5
　　6
　　（2）启动 ResourceManager 守护进程和 NodeManager 守护进程
　　$ sbin/start-yarn.sh
　　1
　　（3）浏览 ResourceManager 的网络接口，它们的地址默认为：
　　ResourceManager - http://localhost:8088/
　　1
　　（4）运行 MapReduce job
　　（5）完成全部操作后，停止守护进程：
　　$ sbin/stop-yarn.sh
　　1

[*]完全分布式模式的操作方法
　　关于搭建完全分布式模式的，请参阅下文《Apache Hadoop 集群上的安装配置》小节内容。
　　Apache Hadoop 集群上的安装配置
　　本节将描述如何安装、配置和管理 Hadoop 集群，其规模可从几个节点的小集群到几千个节点的超大集群。

[*]先决条件
　　确保在你集群中的每个节点上都安装了所有必需软件，安装 Hadoop 集群通常要将安装软件解压到集群内的所有机器上，参考上节内容《Apache Hadoop 单节点上的安装配置》。
　　通常情况下，集群中的一台机器被指定为 NameNode 和另一台机器作为 ResourceManager。这些都是 master。其他服务（例如，Web 应用程序代理服务器和 MapReduce Job History 服务器）是在专用的硬件还是共享基础设施上运行，这取决于负载。
　　在群集里剩余的机器充当 DataNode 和 NodeManager。这些都是 slave。‘’
　　很多人都知道我有大数据培训资料，都天真的以为我有全套的大数据开发、hadoop、spark等视频学习资料。我想说你们是对的，我的确有大数据开发、hadoop、spark的全套视频资料。
　　如果你对大数据开发感兴趣可以加口群领取免费学习资料： 763835121

页: [1]

运维网's Archiver

Apache Hadoop 入门教程第四章