Hadoop伪分布式集群

yywx001 发表于 2018-10-31 10:44:02

　　1、安装虚拟机和操作系统
　　VMware-workstation-full-10.0.0或 VirtualBox-4.2.18-88781-Win下载VMware下载VirtualBox
　　ubuntu-13.04-server-amd64.iso 下载ubuntu
　　2、设置root用户密码
　　sudo passwd root
　　3、上传文件
　　利用WinSCP上传JDK和HADOOP文件，利用putty连接虚拟机中的ubuntu，下载WinSCP，下载putty，下载jdk，下载hadoop
　　4、配置JDK和HADOOP
　　tar -xzvf jdk-7u40-linux-x64.tar.gz
　　tar -xzvf hadoop-1.2.1.tar.gz
　　sudo vi /etc/profile
　　增加：
　　export JAVA_HOME=/home/ysc/jdk1.7.0_40
　　export PATH=$PATH:$JAVA_HOME/bin: /home/ysc/hadoop-1.2.1/bin
　　source /etc/profile
　　5、配置HADOOP
　　配置主机名称及网络
　　vi /etc/hostname
　　指定名称为host001
　　vi /etc/hosts
　　替换内容为：192.168.137.128 host001
　　同时加入C:\Windows\System32\drivers\etc\hosts文件
　　查看是否启用IPV6：
　　cat /proc/sys/net/ipv6/conf/all/disable_ipv6
　　显示0说明ipv6开启，1说明关闭
　　关闭ipv6的方法：
　　sudo vi /etc/sysctl.conf
　　增加下面几行，并重启
　　#disable IPv6
　　net.ipv6.conf.all.disable_ipv6 = 1
　　net.ipv6.conf.default.disable_ipv6 = 1
　　net.ipv6.conf.lo.disable_ipv6 = 1
　　配置SSH
　　cd /home/ysc
　　sudo apt-get install openssh-server
　　ssh-keygen -t rsa（密码为空，路径默认）
　　cp .ssh/id_rsa.pub .ssh/authorized_keys
　　ssh host001
　　yes
　　cd hadoop-1.2.1
　　配置HADOOP环境变量
　　vi conf/hadoop-env.sh
　　增加：
　　export JAVA_HOME=/home/ysc/jdk1.7.0_40
　　配置HADOOP运行参数
　　vi conf/masters
　　改localhost为host001
　　vi conf/slaves
　　改localhost为host001
　　vi conf/core-site.xml
　　
　　fs.default.name
　　hdfs://host001:9000
　　
　　
　　hadoop.tmp.dir
　　/home/ysc/tmp
　　
　　vi conf/hdfs-site.xml
　　
　　dfs.name.dir
　　/home/ysc/dfs/filesystem/name
　　
　　
　　dfs.data.dir
　　/home/ysc/dfs/filesystem/data
　　
　　
　　dfs.replication
　　1
　　
　　vi conf/mapred-site.xml
　　
　　mapred.job.tracker
　　host001:9001
　　
　　
　　mapred.tasktracker.map.tasks.maximum
　　4
　　
　　
　　mapred.tasktracker.reduce.tasks.maximum
　　4
　　
　　
　　mapred.system.dir
　　/home/ysc/mapreduce/system
　　
　　
　　mapred.local.dir
　　/home/ysc/mapreduce/local
　　
　　格式化名称节点并启动集群
　　hadoopnamenode-format
　　启动集群并查看WEB管理界面
　　start-all.sh
　　访问http://host001:50030可以查看 JobTracker 的运行状态
　　访问http://host001:50060可以查看 TaskTracker 的运行状态
　　访问http://host001:50070可以查看 NameNode 以及整个分布式文件系统的状态，浏览分布式文件系统中的文件以及 log 等
　　hadoop jar hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -inputinput -output output-streaming-mapper/bin/cat -reducer /usr/bin/wc
　　hadoopjarhadoop-1.2.1/hadoop-examples-1.2.1.jarwordcountinputoutput
　　停止集群
　　stop-all.sh

页: [1]

运维网's Archiver

Hadoop伪分布式集群