Java+大数据开发

soyizi 发表于 2017-12-17 21:17:51

1集群简介
　　HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起
　　HDFS集群：
　　负责海量数据的存储，集群中的角色主要有 NameNode / DataNode
　　YARN集群：
　　负责海量数据运算时的资源调度，集群中的角色主要有 ResourceManager /NodeManager
　　本集群搭建案例，以3节点为例进行搭建，角色分配如下：
　　

hdp-node-01 NameNodeSecondaryNameNode ResourceManager　　
hdp
-node-02 DataNode NodeManager　　
hdp
-node-03 DataNode NodeManager　　

2服务器准备
　　本案例使用虚拟机服务器来搭建HADOOP集群，所用软件及版本：
　　▨ Vmware 12.0
　　▨ Centos7.064bit

3网络环境准备
　　▨ 采用NAT方式联网
　　▨ 网关地址：192.168.33.1
　　▨ 3个服务器节点IP地址：192.168.33.101、192.168.33.102、192.168.33.103
　　▨ 子网掩码：255.255.255.0

4服务器系统设置
　　▨ 添加HADOOP用户
　　▨ 为HADOOP用户分配sudoer权限
　　▨ 同步时间
　　▨ 设置主机名
　　◈ hdp-node-01
　　◈ hdp-node-02
　　◈ hdp-node-03
　　▨ 配置内网域名映射：
　　◈ 192.168.33.101       hdp-node-01
　　◈ 192.168.33.102       hdp-node-02
　　◈ 192.168.33.103       hdp-node-03
　　▨ 配置ssh免密登陆
　　▨ 配置防火墙

5JDK环境安装
　　▨ 上传jdk安装包
　　▨ 规划安装目录/home/hadoop/apps/jdk_1.7.65
　　▨ 解压安装包
　　▨ 配置环境变量 /etc/profile

6HADOOP安装部署
　　▨ 上传HADOOP安装包
　　▨ 规划安装目录/home/hadoop/apps/hadoop-2.6.5
　　▨ 解压安装包 tar –zxvfhadoop-2.6.5 –C apps/
　　▨ 修改配置文件$HADOOP_HOME/etc/hadoop/
　　最简化配置如下：
　　vihadoop-env.sh
　　

# The java implementation to use.　　
export JAVA_HOME
=/home/hadoop/apps/jdk1.7.0_45　　

　　vicore-site.xml
　　

<configuration>　　
<property>
　　
<name>fs.defaultFS</name>
　　
<value>hdfs://hdp-node-01:9000</value>
　　
</property>
　　
<property>
　　
<name>hadoop.tmp.dir</name>
　　
<value>/home/HADOOP/apps/hadoop-2.6.5/tmp</value>
　　
</property>
　　
</configuration>
　　

　　vihdfs-site.xml
　　

<configuration>　　
<property>
　　
<name>dfs.replication</name>
　　
<value>1</value>
　　
</property>
　　
<property>
　　
<name>dfs.secondary.http.address</name>
　　
<value>hdp-node-01:50090</value>
　　
</property>
　　
</configuration>
　　

　　vimapred-site.xml
　　

<configuration>　　
<property>
　　
<name>mapreduce.framework.name</name>
　　
<value>yarn</value>
　　
</property>
　　
</configuration>
　　

　　viyarn-site.xml
　　

<configuration>　　
<property>
　　
<name>yarn.resourcemanager.hostname</name>
　　
<value>hadoop01</value>
　　
</property>
　　
<property>
　　
<name>yarn.nodemanager.aux-services</name>
　　
<value>mapreduce_shuffle</value>
　　
</property>
　　
</configuration>
　　

　　visalves
　　

hdp-node-02　　
hdp-node-03
　　

7启动集群
　　初始化HDFS
　　

bin/hadoopnamenode-format　　

　　启动HDFS
　　

sbin/start-dfs.sh　　

　　启动YARN
　　

sbin/start-yarn.sh　　

　　查看集群状态
　　

jps　　
bin/hdfs dfsadmin -report
　　

8测试——运行一个mapreduce程序
　　在HADOOP安装目录下，运行一个示例mr程序
　　

cd $HADOOP_HOME/share/hadoop/mapreduce/　　
hadoop jar mapredcue-example-2.6.5.jar wordcount /wordcount/input/wordcount/output
　　

9HDFS使用
　　1、查看集群状态
　　命令： hdfsdfsadmin–report

　　可以看出，集群共有3个datanode可用
　　也可打开web控制台查看HDFS集群信息，在浏览器打开http://hdp-node-01:50070/

　　2、上传文件到HDFS
　　▣查看HDFS中的目录信息
　　命令： hadoopfs–ls/

　　▣ 上传文件
　　命令： hadoopfs-put./ scala-2.10.6.tgzto/

作者：杰瑞教育　　出处：http://www.cnblogs.com/jerehedu/
　　版权声明：本文版权归烟台杰瑞教育科技有限公司和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

　　技术咨询：

页: [1]

运维网's Archiver

Java+大数据开发