hadoop2.6集群模式搭建

12343052 发表于 2018-10-29 10:59:24

　　基础环境
　　1、JDK的安装与配置
　　2、配置Host
　　A、由于我搭建Hadoop集群包含三台机器，所以需要修改调整各台机器的hosts文件配置，命令如下：
　　vi/etc/hosts
　　如果没有足够的权限，可以切换用户为root。
　　三台机器的内容统一增加以下host配置：

　　B、每台机器分别对应执行（hostname 对应机器的hostname）修改后关掉当前bash重启一个客户端就可以看到名字已经修改
　　例如在master机器执行 hostname master 然后重启：

　　C、修改主机名：
　　1.编辑/etc/sysconfig/network文件，把里面HOSTNAME的值改为需要的主机名。
　　2.重新启动网络服务 /etc/rc.d/init.d/network restart
　　3、SSH
　　由于NameNode与DataNode之间通信，使用了SSH，所以需要配置master到slave免登录。
　　A、集群中的每台主机上打开配置
　　vim /etc/ssh/sshd_config
　　开启下面的选项
　　RSAAuthentication yes
　　PubkeyAuthentication yes
　　AuthorizedKeysFile .ssh/authorized_keys
　　B、生成SSH密钥
　　集群中的每台主机上执行下面命令，一路回车，可生成本机的rsa类型的密钥。
　　ssh-keygen -t rsa
　　执行命令后会在当前用户目录下生成.ssh目录，然后进入此目录将id_rsa.pub追加到authorized_keys文件中（如果没有此文件，新建一个就行），命令如下：
　　cd .ssh

　　cat>　　最后将authorized_keys文件复制到其它机器节点,命令如下：
　　scp authorized_keys root@slave1:~/.ssh/
　　scp authorized_keys root@slave2:~/.ssh/
　　并将当前机器id_rsa.pub的内容追加到authorized_keys
　　文件目录
　　为了便于管理，给Master的hdfs的NameNode、DataNode及临时文件，在用户目录下创建目录：
　　/usr/local/hdfs/name
　　/usr/local/hdfs/data
　　/usr/local/hdfs/tmp
　　然后将这些目录通过scp命令拷贝到Slave1和Slave2的相同目录下。
　　HADOOP的安装与配置
　　下载
　　使用以下命令将hadoop-2.6.0.tar.gz解压缩到/usr/local/目录
　　tar zxvf hadoop-2.6.0.tar.gz -C /usr/local/
　　环境变量
　　回到/usr/local目录，配置hadoop环境变量，命令如下：
　　cd~
　　vim /etc/profile
　　在profile中加入以下内容：

　　立刻让hadoop环境变量生效，执行如下命令：
　　source /etc/ profile
　　Hadoop的配置
　　进入hadoop-2.6.0的配置目录：
　　cd /usr/local/hadoop-2.6.0/etc/hadoop/
　　依次修改core-site.xml、hdfs-site.xml、mapred-site.xml及yarn-site.xml文件。
　　core-site.xml
　　
　　
　　hadoop.tmp.dir
　　file:/usr/local/hdfs/tmp
　　A base for other temporary directories.
　　
　　
　　io.file.buffer.size
　　131072
　　
　　
　　fs.default.name
　　hdfs://master:9000
　　
　　
　　hadoop.proxyuser.root.hosts
　　*
　　
　　
　　hadoop.proxyuser.root.groups
　　*
　　
　　
　　hdfs-site.xml
　　
　　
　　dfs.replication
　　3
　　
　　
　　dfs.namenode.name.dir
　　file:/usr/local/hdfs/name
　　true
　　
　　
　　dfs.datanode.data.dir
　　file:/usr/local/hdfs/data
　　true
　　
　　
　　dfs.namenode.secondary.http-address
　　master:9001
　　
　　
　　dfs.webhdfs.enabled
　　true
　　
　　
　　dfs.permissions
　　false
　　
　　
　　mapred-site.xml
　　
　　
　　mapreduce.framework.name
　　yarn
　　
　　
　　yarn-site.xml
　　
　　
　　
　　yarn.resourcemanager.address
　　master:18040
　　
　　
　　yarn.resourcemanager.scheduler.address
　　master:18030
　　
　　
　　yarn.resourcemanager.webapp.address
　　master:18088
　　
　　
　　yarn.resourcemanager.resource-tracker.address
　　master:18025
　　
　　
　　yarn.resourcemanager.admin.address
　　master:18141
　　
　　
　　yarn.nodemanager.aux-services
　　mapreduce_shuffle
　　
　　
　　yarn.nodemanager.aux-services.mapreduce.shuffle.class
　　mapreduce_shuffle
　　
　　hadoop-env.sh与yarn-env.sh这两个文件修改的配置是：
　　export JAVA_HOME=配置java环境变量
　　最后，将整个hadoop-2.6.0文件夹及其子文件夹使用scp复制到两台Slave的相同目录中：
　　scp -r hadoop-2.6.0 root@slave1:/usr/local/
　　scp -r hadoop-2.6.0 root@slave2:/usr/local/
　　运行HADOOP
　　运行HDFS
　　格式化NameNode
　　执行命令：
　　hadoop namenode -format
　　启动NameNode
　　执行命令如下：
　　hadoop-daemon.sh start namenode
　　最后在Master上执行ps -ef | grep hadoop，看到hadoop进程：
　　在Master上执行jps命令，得到如下结果：

　　说明NameNode启动成功。
　　启动DataNode
　　执行命令如下：
　　hadoop-daemons.sh start datanode
　　执行结果如下：

　　在Slave1上执行命令
　　在Slave2上执行命令
　　以上启动NameNode和DataNode的方式，可以用start-dfs.sh脚本替代
　　运行YARN
　　运行Yarn也有与运行HDFS类似的方式。启动ResourceManager使用以下命令：
　　yarn-daemon.sh start resourcemanager
　　批量启动多个NodeManager使用以下命令：
　　yarn-daemons.sh start nodemanager
　　以上方式我们就不赘述了，还可以使用start-yarn.sh的简洁的启动方式
　　在Master上执行jps：

　　说明ResourceManager运行正常。
　　在两台Slave上执行jps，也会看到NodeManager运行正常，如下图：

　　启动日志服务
　　通过命令启动mr-jobhistory-daemon.sh start historyserver

　　测试HADOOP
　　测试HDFS
　　最后测试下亲手搭建的Hadoop集群是否执行正常，测试的命令如下图所示：

　　测试YARN
　　可以访问YARN的管理界面，验证YARN，如下图所示：

　　测试mapreduce
　　本人比较懒，不想编写mapreduce代码。幸好Hadoop安装包里提供了现成的例子，在Hadoop的share/hadoop/mapreduce目录下。运行例子：

　　会在yarn的web平台看到每次执行mapreduce或者yarn的执行状态和日志

页: [1]

运维网's Archiver

hadoop2.6集群模式搭建