yywx001 发表于 2018-10-31 10:44:02

Hadoop伪分布式集群

  1、安装虚拟机和操作系统
  VMware-workstation-full-10.0.0或 VirtualBox-4.2.18-88781-Win下载VMware下载VirtualBox
  ubuntu-13.04-server-amd64.iso 下载ubuntu
  2、设置root用户密码
  sudo passwd root
  3、上传文件
  利用WinSCP上传JDK和HADOOP文件,利用putty连接虚拟机中的ubuntu,下载WinSCP, 下载putty,下载jdk,下载hadoop
  4、配置JDK和HADOOP
  tar -xzvf jdk-7u40-linux-x64.tar.gz
  tar -xzvf hadoop-1.2.1.tar.gz
  sudo vi /etc/profile
  增加:
  export JAVA_HOME=/home/ysc/jdk1.7.0_40
  export PATH=$PATH:$JAVA_HOME/bin: /home/ysc/hadoop-1.2.1/bin
  source /etc/profile
  5、配置HADOOP
  配置主机名称及网络
  vi /etc/hostname
  指定名称为host001
  vi /etc/hosts
  替换内容为:192.168.137.128 host001
  同时加入C:\Windows\System32\drivers\etc\hosts文件
  查看是否启用IPV6:
  cat /proc/sys/net/ipv6/conf/all/disable_ipv6
  显示0说明ipv6开启,1说明关闭
  关闭ipv6的方法:
  sudo vi /etc/sysctl.conf
  增加下面几行,并重启
  #disable IPv6
  net.ipv6.conf.all.disable_ipv6 = 1
  net.ipv6.conf.default.disable_ipv6 = 1
  net.ipv6.conf.lo.disable_ipv6 = 1
  配置SSH
  cd /home/ysc
  sudo apt-get install openssh-server
  ssh-keygen -t rsa(密码为空,路径默认)
  cp .ssh/id_rsa.pub .ssh/authorized_keys
  ssh host001
  yes
  cd hadoop-1.2.1
  配置HADOOP环境变量
  vi conf/hadoop-env.sh
  增加:
  export JAVA_HOME=/home/ysc/jdk1.7.0_40
  配置HADOOP运行参数
  vi conf/masters
  改localhost为host001
  vi conf/slaves
  改localhost为host001
  vi conf/core-site.xml
  
  fs.default.name
  hdfs://host001:9000
  
  
  hadoop.tmp.dir
  /home/ysc/tmp
  
  vi conf/hdfs-site.xml
  
  dfs.name.dir
  /home/ysc/dfs/filesystem/name
  
  
  dfs.data.dir
  /home/ysc/dfs/filesystem/data
  
  
  dfs.replication
  1
  
  vi conf/mapred-site.xml
  
  mapred.job.tracker
  host001:9001
  
  
  mapred.tasktracker.map.tasks.maximum
  4
  
  
  mapred.tasktracker.reduce.tasks.maximum
  4
  
  
  mapred.system.dir
  /home/ysc/mapreduce/system
  
  
  mapred.local.dir
  /home/ysc/mapreduce/local
  
  格式化名称节点并启动集群
  hadoopnamenode-format
  启动集群并查看WEB管理界面
  start-all.sh
  访问http://host001:50030可以查看 JobTracker 的运行状态
  访问http://host001:50060可以查看 TaskTracker 的运行状态
  访问http://host001:50070可以查看 NameNode 以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及 log 等
  hadoop jar hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -inputinput -output output-streaming-mapper/bin/cat -reducer /usr/bin/wc
  hadoopjarhadoop-1.2.1/hadoop-examples-1.2.1.jarwordcountinputoutput
  停止集群
  stop-all.sh

页: [1]
查看完整版本: Hadoop伪分布式集群