細細.魚 发表于 2018-10-28 11:57:24

Hadoop笔记整理(一):Hadoop概述

CentOS的配置  1、网卡:NAT
  网络:192.168.43.101
  NetMask:255.255.255.0
  GateWay:192.168.43.2
  DNS Server:124.207.160.106,219.239.26.42
  配置完毕之后,重启网卡:
  ]#service network restart
  2、修改主机名和ip地址映射文件(重启生效)
  vim /etc/sysconfig/network
  将HOSTNAME改为uplooking01
  保存退出:
  vim /etc/hosts
  加入一行内容:
  192.168.43.101uplooking01
  同样在windows下面也做相同的映射配置(C:\Windows\System32\drivers\etc\hosts):
  3、关闭防火墙,并从开机启动项中去处防火墙
  关闭防火墙:
  service iptables stop
  从开机启动项中移除防火墙
  chkconfig iptables off
  4、关闭selinux服务(重启生效)
  vim /etc/selinux/config
  SELINUX=disabled
  5、开启最小多用户模式
  vim /etc/inittab
  id:5:initdefault:--->id:3:initdefault:
  在CentOS下面安装软件的一些约定:
  所有的软件上传至/home/uplooking/soft
  安装在/home/uplooking/app目录
  如果在命令中出现[]表示可选,表示必须
  使用xftp软件将jdk和hadoop安装压缩包上传至/opt/soft目录下,进行安装:
  1、安装JDK
  第一步:解压
  opt]# tar -zxvf /opt/soft/jdk-8u112-linux-x64.tar.gz [-C /opt/]
  第二步:重命名
  opt]# mv jdk1.8.0_112/ jdk
  第三步:配置JAVA_HOME环境变量
  vim /etc/profile.d/hadoop-etc.sh,添加一下内容
  export JAVA_HOME=/opt/jdk
  export PATH=$PATH:$JAVA_HOME/bin
  保存退出,并让环境生效
  source /etc/profile.d/hadoop-etc.sh
  第四步:验证
  java -version
  2、Hadoop的安装/home/uplooking/app目录
  hadoop的版本:hadoop-2.6.4.tar.gz
  1°、解压:
  $ tar -zxvf soft/hadoop-2.6.4.tar.gz -C /home/uplooking/app/
  2°、重命名:
  $ mv /home/uplooking/app/hadoop-2.6.4/ /home/uplooking/app/hadoop
  3°、添加hadoop相关命令到环境变量中
  ~]$ vim ~/.bash_profile
  加入以下内容:
  export HADOOP_HOME=/home/uplooking/app/hadoop
  export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  生效:
  ~]$ source ~/.bash_profile
  4°、创建数据存储目录:
  1) NameNode 数据存放目录: /home/uplooking/data/hadoop/name
  2) SecondaryNameNode 数据存放目录: /home/uplooking/data/hadoop/secondary
  3) DataNode 数据存放目录: /home/uplooking/data/hadoop/data
  4) 临时数据存放目录: /home/uplooking/data/hadoop/tmp
  5°、配置 hadoop-env.sh 、yarn-env.sh hdfs-site.xml core-site.xml mappred-site.xml yarn-site.xml
  1)、配置hadoop-env.sh
  export JAVA_HOME=/opt/jdk
  2)、配置yarn-env.sh
  export JAVA_HOME=/opt/jdk
  3)、配置hdfs-site.xml
  
  
  dfs.namenode.name.dir
  /home/uplooking/data/hadoop/name
  存放元数据的磁盘目录
  
  
  dfs.datanode.data.dir
  /home/uplooking/data/hadoop/data
  存放数据的磁盘目录
  
  
  dfs.namenode.checkpoint.dir
  /home/uplooking/data/hadoop/secondary
  存放检查点数据的磁盘目录
  
  
  
  dfs.namenode.secondary.http-address
  uplooking01:9001
  
  
  
  dfs.replication
  1
  默认有3分,但是目前只有一台机器,所以备份数设置为1
  
  
  
  dfs.webhdfs.enabled
  true
  
  
  
  dfs.permissions
  false
  
  
  4)、配置core-site.xml
  
  
  fs.defaultFS
  hdfs://uplooking01:9000
  hdfs内部通讯访问地址
  
  
  hadoop.tmp.dir
  /home/uplooking/data/hadoop/tmp
  
  
  5)、配置mapred-site.xml
  
  
  mapreduce.framework.name
  yarn
  
  
  
  mapreduce.jobhistory.address
  uplooking01:10020
  
  
  
  mapreduce.jobhistory.webapp.address
  uplooking01:19888
  
  
  mapreduce.map.log.level
  INFO
  
  
  mapreduce.reduce.log.level
  INFO
  
  
  6)、配置yarn-site.xml
  
  
  yarn.nodemanager.aux-services
  mapreduce_shuffle
  
  
  yarn.resourcemanager.hostname
  uplooking01
  
  
  yarn.resourcemanager.address
  uplooking01:8032
  
  
  yarn.resourcemanager.scheduler.address
  uplooking01:8030
  
  
  yarn.resourcemanager.resource-tracker.address
  uplooking01:8031
  
  
  yarn.resourcemanager.admin.address
  uplooking01:8033
  
  
  yarn.resourcemanager.webapp.address
  uplooking01:8088
  
  
  yarn.log-aggregation-enable
  true
  
  
  格式化hadoop文件系统
  hdfs namenode -format
  当出现Storage directory /home/uplooking/data/hadoop/name has been successfully formatted.则说明格式化成功
  负责失败,如果失败的话:就要检查配置文件,再次进行格式化,如果要再次进行格式化,
  必须要把dfs.namenode.name.dir配置目录下面的数据清空。
  启动hadoop
  start-all.sh
  分为以下
  start-dfs.sh
  start-yarn.sh
  启动成功之后,通过java命令jps(java process status)会出现5个进程:
  NameNode
  SecondaryNameNode
  DataNode
  ResourceManager
  NodeManager
  在启动的时候,提示需要输入的密码,是因为没有配置ssh免密码登录模式,如何配置?
  ssh-keygen -t rsa
  一路回车
  ssh-copy-id -i uplooking@uplooking01
  根据提示输入当前机器的密码
  验证:ssh uplooking@uplooking01 不需要再输入密码
  验证:
  1°、在命令中执行以下命令:
  hdfs dfs -ls /
  2°、在浏览器中输入http://uplooking01:50070
  3°、验证mr
  /home/uplooking/app/hadoop/share/hadoop/mapreduce目录下面,执行如下命令:
  --------下面是个人添加的笔记--------
  hdfs dfs -mkdir -p /wordcount/input
  mkdir dfs -mkdir -p /wordcount/output
  hdfs dfs -put word.txt /wordcount/input
  --------上面是个人添加的笔记--------
  yarn jar hadoop-mapreduce-examples-2.6.4.jar wordcount /hello /out
  在执行作业的过程中,也可以在地址栏中输入:http://uplooking01:8088来查看作业的执行状态
  问题:
  如果要进行多次格式化,那么需要将刚才创建的/home/uplooking/data/hadoop/中的文件夹删除重建,
  才能进行二次格式化
  另外,如果后面向hadoop提交mr项目时,如果想查看输出,可以参考下面的方法:
  yarn-site.xml中配置:
  
  yarn.log-aggregation-enable
  true
  
  重启yarn和historyserver
  执行sbin/mr-jobhistory-daemon.sh start historyserver

页: [1]
查看完整版本: Hadoop笔记整理(一):Hadoop概述