Hadoop笔记整理（一）：Hadoop概述

細細.魚 发表于 2018-10-28 11:57:24

CentOS的配置　　1、网卡：NAT
　　网络：192.168.43.101
　　NetMask：255.255.255.0
　　GateWay：192.168.43.2
　　DNS Server：124.207.160.106,219.239.26.42
　　配置完毕之后，重启网卡：
　　]#service network restart
　　2、修改主机名和ip地址映射文件(重启生效)
　　vim /etc/sysconfig/network
　　将HOSTNAME改为uplooking01
　　保存退出：
　　vim /etc/hosts
　　加入一行内容：
　　192.168.43.101uplooking01
　　同样在windows下面也做相同的映射配置(C:\Windows\System32\drivers\etc\hosts)：
　　3、关闭防火墙，并从开机启动项中去处防火墙
　　关闭防火墙：
　　service iptables stop
　　从开机启动项中移除防火墙
　　chkconfig iptables off
　　4、关闭selinux服务(重启生效)
　　vim /etc/selinux/config
　　SELINUX=disabled
　　5、开启最小多用户模式
　　vim /etc/inittab
　　id:5:initdefault:--->id:3:initdefault:
　　在CentOS下面安装软件的一些约定：
　　所有的软件上传至/home/uplooking/soft
　　安装在/home/uplooking/app目录
　　如果在命令中出现[]表示可选，表示必须
　　使用xftp软件将jdk和hadoop安装压缩包上传至/opt/soft目录下，进行安装：
　　1、安装JDK
　　第一步：解压
　　opt]# tar -zxvf /opt/soft/jdk-8u112-linux-x64.tar.gz [-C /opt/]
　　第二步：重命名
　　opt]# mv jdk1.8.0_112/ jdk
　　第三步：配置JAVA_HOME环境变量
　　vim /etc/profile.d/hadoop-etc.sh，添加一下内容
　　export JAVA_HOME=/opt/jdk
　　export PATH=$PATH:$JAVA_HOME/bin
　　保存退出，并让环境生效
　　source /etc/profile.d/hadoop-etc.sh
　　第四步：验证
　　java -version
　　2、Hadoop的安装/home/uplooking/app目录
　　hadoop的版本：hadoop-2.6.4.tar.gz
　　1°、解压：
　　$ tar -zxvf soft/hadoop-2.6.4.tar.gz -C /home/uplooking/app/
　　2°、重命名：
　　$ mv /home/uplooking/app/hadoop-2.6.4/ /home/uplooking/app/hadoop
　　3°、添加hadoop相关命令到环境变量中
　　~]$ vim ~/.bash_profile
　　加入以下内容：
　　export HADOOP_HOME=/home/uplooking/app/hadoop
　　export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
　　生效：
　　~]$ source ~/.bash_profile
　　4°、创建数据存储目录：
　　1) NameNode 数据存放目录： /home/uplooking/data/hadoop/name
　　2) SecondaryNameNode 数据存放目录： /home/uplooking/data/hadoop/secondary
　　3) DataNode 数据存放目录： /home/uplooking/data/hadoop/data
　　4) 临时数据存放目录： /home/uplooking/data/hadoop/tmp
　　5°、配置 hadoop-env.sh 、yarn-env.sh hdfs-site.xml core-site.xml mappred-site.xml yarn-site.xml
　　1)、配置hadoop-env.sh
　　export JAVA_HOME=/opt/jdk
　　2)、配置yarn-env.sh
　　export JAVA_HOME=/opt/jdk
　　3)、配置hdfs-site.xml
　　
　　
　　dfs.namenode.name.dir
　　/home/uplooking/data/hadoop/name
　　存放元数据的磁盘目录
　　
　　
　　dfs.datanode.data.dir
　　/home/uplooking/data/hadoop/data
　　存放数据的磁盘目录
　　
　　
　　dfs.namenode.checkpoint.dir
　　/home/uplooking/data/hadoop/secondary
　　存放检查点数据的磁盘目录
　　
　　
　　
　　dfs.namenode.secondary.http-address
　　uplooking01:9001
　　
　　
　　
　　dfs.replication
　　1
　　默认有3分，但是目前只有一台机器，所以备份数设置为1
　　
　　
　　
　　dfs.webhdfs.enabled
　　true
　　
　　
　　
　　dfs.permissions
　　false
　　
　　
　　4)、配置core-site.xml
　　
　　
　　fs.defaultFS
　　hdfs://uplooking01:9000
　　hdfs内部通讯访问地址
　　
　　
　　hadoop.tmp.dir
　　/home/uplooking/data/hadoop/tmp
　　
　　
　　5)、配置mapred-site.xml
　　
　　
　　mapreduce.framework.name
　　yarn
　　
　　
　　
　　mapreduce.jobhistory.address
　　uplooking01:10020
　　
　　
　　
　　mapreduce.jobhistory.webapp.address
　　uplooking01:19888
　　
　　
　　mapreduce.map.log.level
　　INFO
　　
　　
　　mapreduce.reduce.log.level
　　INFO
　　
　　
　　6)、配置yarn-site.xml
　　
　　
　　yarn.nodemanager.aux-services
　　mapreduce_shuffle
　　
　　
　　yarn.resourcemanager.hostname
　　uplooking01
　　
　　
　　yarn.resourcemanager.address
　　uplooking01:8032
　　
　　
　　yarn.resourcemanager.scheduler.address
　　uplooking01:8030
　　
　　
　　yarn.resourcemanager.resource-tracker.address
　　uplooking01:8031
　　
　　
　　yarn.resourcemanager.admin.address
　　uplooking01:8033
　　
　　
　　yarn.resourcemanager.webapp.address
　　uplooking01:8088
　　
　　
　　yarn.log-aggregation-enable
　　true
　　
　　
　　格式化hadoop文件系统
　　hdfs namenode -format
　　当出现Storage directory /home/uplooking/data/hadoop/name has been successfully formatted.则说明格式化成功
　　负责失败，如果失败的话：就要检查配置文件，再次进行格式化，如果要再次进行格式化，
　　必须要把dfs.namenode.name.dir配置目录下面的数据清空。
　　启动hadoop
　　start-all.sh
　　分为以下
　　start-dfs.sh
　　start-yarn.sh
　　启动成功之后，通过java命令jps(java process status)会出现5个进程：
　　NameNode
　　SecondaryNameNode
　　DataNode
　　ResourceManager
　　NodeManager
　　在启动的时候，提示需要输入的密码，是因为没有配置ssh免密码登录模式，如何配置？
　　ssh-keygen -t rsa
　　一路回车
　　ssh-copy-id -i uplooking@uplooking01
　　根据提示输入当前机器的密码
　　验证：ssh uplooking@uplooking01 不需要再输入密码
　　验证：
　　1°、在命令中执行以下命令：
　　hdfs dfs -ls /
　　2°、在浏览器中输入http://uplooking01:50070
　　3°、验证mr
　　/home/uplooking/app/hadoop/share/hadoop/mapreduce目录下面，执行如下命令：
　　--------下面是个人添加的笔记--------
　　hdfs dfs -mkdir -p /wordcount/input
　　mkdir dfs -mkdir -p /wordcount/output
　　hdfs dfs -put word.txt /wordcount/input
　　--------上面是个人添加的笔记--------
　　yarn jar hadoop-mapreduce-examples-2.6.4.jar wordcount /hello /out
　　在执行作业的过程中，也可以在地址栏中输入：http://uplooking01:8088来查看作业的执行状态
　　问题：
　　如果要进行多次格式化，那么需要将刚才创建的/home/uplooking/data/hadoop/中的文件夹删除重建，
　　才能进行二次格式化
　　另外，如果后面向hadoop提交mr项目时，如果想查看输出，可以参考下面的方法：
　　yarn-site.xml中配置：
　　
　　yarn.log-aggregation-enable
　　true
　　
　　重启yarn和historyserver
　　执行sbin/mr-jobhistory-daemon.sh start historyserver

页: [1]

运维网's Archiver

Hadoop笔记整理（一）：Hadoop概述