设为首页 收藏本站
查看: 698|回复: 0

[经验分享] Hadoop搭建指南

[复制链接]

尚未签到

发表于 2016-12-4 08:54:09 | 显示全部楼层 |阅读模式
word上面一拷过来就乱了。

1Hadoop 环境搭建
1.1Java环境安装
1.从Oracle官网下载JDK1.6Linux版本.
下载地址为:
http://download.oracle.com/otn-pub/java/jdk/6u32-b05/jdk-6u32-linux-i586.bin

2.下载的文件为jdk-6u32-linux-i586.bin 文件,这中后缀名的bin文件可以直接执行..
下载完成之后,可以通过FTP传入到Linux系统中.

3.接下来,登录linux系统,赋予执行权限,命令如下:
#mkdir /bin/java
# chmod -R 775 jdk-6u32-linux-i586.bin

4.执行jdk的安装.
# ./jdk-6u32-linux-i586.bin

安装过程中,会提示您按回车键,敲回车键即可. 会在linux的当前目录下,产生一个jdk1.6.0_32文件.
jdk安装完成.

5.配置环境变量.
环境变量的配置分为几种方式,根据自己的选择配置:

方式一:在/etc/profile文件中配置JAVA_HOME以及PATH和CLASS_PATH
因为这样的设置将对所以用户的shell都生效,对系统安全会产生影响。
就是在这个文件的最后加上:
export JAVA_HOME=/bin/java/jdk1.6.0_32
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin

方式二:
修改.bashrc文件来配置环境变量:
#vi .bashrc
export JAVA_HOME=/bin/java/jdk1.6.0_32
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin

配置完成之后,使用logout命令退出,然后重新登入使其生效.
验证一下是否安装成功,使用Java -version查看一下.

# java -version
java version "1.6.0_32"
Java(TM) SE Runtime Environment (build 1.6.0_32-b05)
Java HotSpot(TM) Client VM (build 20.7-b02, mixed mode, sharing)

1.2主机配置
·vim /etc/hostname
hadoop5.com
/etc/init.d/hostname.sh  start 重启动
·vim /etc/hosts
192.168.5.5   hadoop5.com
127.0.0.1     localhost
192.168.5.2 debian.private  debian
192.168.5.5   brzh.com ~
1.3Hadoop安装配置
·vim hadoop-env.sh
export JAVA_HOME=/bin/java/jdk1.6.0_32  
·vim conf/core-site.xml
              fs.default.name
      定义: Name Node的URI
      描述: hdfs://hostname/
<!--  fs.default.name - 这是一个描述集群中NameNode结点的URI(包括协议、主机名称、端口号),集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。-->
<!—hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在这个路径中-->

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
   <name> hadoop.tmp.dir</name>
   <value>/home/tmp/hadoop</value> #设定Hadoop临时目录?
   <description> </description>
</property>

<property>
<name>fs.default.name</name>
<value>hdfs://hadoop5.com:9100</value> #设置文件系统路径
</property>

<property>
<name>heartbeat.recheck.interval</name>#节点间心跳检测间隔时间默10分
<value>1000</value>
</property>
</configuration>

·vim conf/hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.relplication</name> ##HDFS的副本数,默认为3,如果DataNode的数量小于这个值会有问题
<value>2</value>
</property>
<property>
<name>dfs.permissions</name>  ##是否对dfs中的文件进行权限控制
<value>false</value>
</property>

<property>
    <name>dfs.http.address</name>
    <value>hadoop5.com:50070</value> #指定namenode地址
</property>

<!--<property>  
   <name>dfs.secondary.http.address</name> #指定secondary namenode
    <value>cloud3:50090</value>  
</property>
  </configuration>

·vim conf/mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
    <name>mapred.job.tracker</name>
    <value>hadoop5.com:9200</value> ##设置MapReduce Job运行的主机和端口
</property>
</configuration>

1.4masters/slaves 配置
masters:指定namenode的主机名
slaves:指定datanode/tasktracker的主机名
将Hadoop目录同步到所有节点服务器

1.5启动hadoop
·格式化分布式文件系统
bin/hadoop namenode –format   
·关闭所有节点的防火墙及Selinux
·在namenode上执行
bin/start-all.sh
·每次启动都要删除
rm -R  /tmp/hadoop-root 否则无法启动datanode
·查看进程运行情况
$JAVA_HOME/bin/jps
./bin/hadoop namenode  查看namenode 启动情况
tail –f /bin/hadoop/log/*.log  查看各进程启动

1.6查看运行
HDFS状态:
http://hadoop5.com:50070/dfshealth.jsp
MapReduce状态:
http://hadoop5.com:50030/jobtracker.jsp
查看文件系统情况:
  bin/hadoop dfsadmin -report  
列出文件系统目录:
  bin/hadoop fs -ls hdfs://hadoop5.com:9100/

1.7增加HDFS节点  (永久加节点在 namenode slave上加)
1、新节点ip/hosts:
192.168.5.6     hadoop6.com
2、在新节点上192.168.5.6上安装Hadoop,配置应与NameNode一致
3、若永久填加该节点,可修改masters和slaves文件
   本案例在192.168.5.5  的slave 添加 hadoop6.com
       本案例在192.168.5.6  的master 添加 hadoop5.com
4、临时填加节点,192.168.5.6执行命令:
         ./bin/hadoop-daemon.sh start datanode   
   ./bin/hadoop-daemon.sh start tasktracker
5、查看http://hadoop5.com:50070,已变为4个live节点

1.8热增加hdfs节点
有的时候, datanode或者tasktracker crash,或者需要向集群中增加新的机器时又不能重启集群。下面方法也许对你有用。
1.把新机器的增加到conf/slaves文件中(datanode或者tasktracker crash则可跳过)
2.在新机器上进入hadoop安装目录
  $bin/hadoop-daemon.sh start datanode
  $bin/hadoop-daemon.sh start tasktracker
3.在namenode上
  $bin/hadoop balancer

1.9Hadoop重启动
1.清空/tmp目录 rm –R /tmp/*
2.service iptables stop (看系统是否决定要执行这步)
3. ./bin/hadoop namenode –format
4. ./bin/start-all.sh (需要密码登录,执行下步)
1.10配置SSH(免)密码登录
1、(namenode即master上)生成密钥
ssh-keygen  -t  rsa  默认存放目录为 /root/.ssh/
    cd /root/.ssh
    cp /root/.ssh/id_rsa.pub  /root/.ssh/authorized_keys
2、slave 也执行 ssh-keygen  -t  rsa
3、拷贝密钥和授权
   scp -r /root/.ssh/authorized_keys  root@192.168.5.6:/root/.ssh/
       然后在slave节点机上chmod 0600  /root/.ssh/authorized_keys
1.11Hadoop配置项意义
   配置项
    fs.default.name
    定义: Name Node的URI
    描述: hdfs://hostname/

    mapred.job.tracker
    定义: JobTracker的地址
    描述: hostname:port

    dfs.name.dir
    定义: Name Node 保存元数据和事务日志的本地目录
    描述: 逗号分隔的目录列表用于指定多份数据的冗余备份.

     dfs.data.dir
     定义: Data Node 保存块文件的本地目录
     描述: 逗号分隔的目录列表指定这些目录用于保存块文件.

     mapred.system.dir
    定义: HDFS上MapReduce保存系统文件的目录.
    描述:

    mapred.local.dir
    定义: 保存MapReduce临时文件的本地目录
    描述: 逗号分隔的目录列表用于指定多个目录同时做为临时数据空间

    mapred.tasktracker.{map|reduce}.tasks.maximum
    定义: TaskTracker上最多能够同时运行的map/reduce task数目.
    描述: 默认map/reduce task数目各为2.

    dfs.hosts/dfs.hosts.exclude
    定义: Data Node白名单/黑名单文件
    描述:

    mapred.hosts/mapred.hosts.exclude
    定义: MapReduce白名单/黑名单文件
    描述:

    mapred.queue.names
    定义: 队列名
    描述: hadoop MapReduce系统默认有一个"default"的Job队列(pool).

dfs.block.size
定义: hdfs默认块大小
描述: 默认是128M

dfs.namenode.handler.count
定义: namenode同时和datanode通信的线程数
描述:

mapred.reduce.parallel.copies
定义: reducer同时从mapper上拉取的文件数
描述:

mapred.child.java.opts
定义: child jvm的堆大小
描述:

3fs.inmemory.size.mb
定义: reducer在合并map输出数据使用的内存空间
描述: 默认使用200M

io.sort.factor
定义: 排序因子。同时合并的数据流的数量
描述:

io.sort.mb
定义: 排序使用的最大内存
描述:

io.file.buffer.size
定义: 读写文件的缓冲区大小
描述:

mapred.job.tracker.handler.count
定义: jobtracker同时与tasktracker通信的线程数
描述:

tasktracker.http.threads
定义:tasktracker开http服务的线程数。用于reduce拉取map输出数据。

1.12Root登录
    系统>系统管理>登录窗口,点“安全”选项页,选择“允许本地管理员登录”。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-309336-1-1.html 上篇帖子: hadoop面试小结 下篇帖子: 编写Hadoop应用程序
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表