namedhao 发表于 2016-12-5 11:45:36

hadoop使用随记1

  linux安装流程:
  1、确认Linux中安装了jvm并配置好了JAVA_HOME,并安装了ssh
  2、下载hadoop0.20.2(由于hadoop-eclipse-plugin在0.20.203上没有联通,改用了0.20.2版本,之后会详细说报错信息)
  3、修改hadoop0.20.2/conf文件夹下的配置文件
  (1) core-site.xml
  <?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
  <!-- Put site-specific property overrides in this file. -->
  <configuration>
 <property>
  <name>fs.default.name</name><!--文件系统的默认名称-->
  <value>hdfs://192.168.38.66:9000</value>
 </property>
 <property>
  <name>hadoop.tmp.dir</name><!--Hadoop运行的临时目录-->
  <value>/home/hadoop/hdfs/tmp</value>
 </property>
</configuration>
  (2)hdfs-site.xml
  <?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
  <!-- Put site-specific property overrides in this file. -->
  <configuration>
 <property>
  <name>dfs.replication</name>
  <value>1</value>
 </property>
 <property>
  <name>dfs.data.dir</name><!--DFS的数据保存目录-->
  <value>/home/hadoop/hdfs/data/dir1,/home/hadoop/hdfs/data/dir2</value>
 </property>
 <property>
  <name>dfs.name.dir</name><!-- DFS Namenode保存的位置-->
  <value>/home/hadoop/hdfs/namenode/name1,/home/hadoop/hdfs/namenode/name2</value>
 </property>
</configuration>
(3)mapred-site.xml
  <?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
  <!-- Put site-specific property overrides in this file. -->
  <configuration>
 <property>
  <name>mapred.job.tracker</name><!--Jobtracker的位置-->
  <value>192.168.38.66:9001</value>
 </property>
 <property>
  <name>mapred.tasktracker.map.tasks.maximum</name><!--单节点同时运行的最大map数-->
  <value>8</value>
 </property>
 <property>
  <name>mapred.tasktracker.reduce.tasks.maximum</name><!--单节点同时运行的最大reduce数-->
  <value>6</value>
 </property>
</configuration>
(4)masters
  如果是单机伪分布式模式,只需要填写localhost或或主机名或主机ip地址,如果是集群模式,则写master Server(集群主节点)的ip地址或主机名(注:如果是主机名,需要在/etc/hosts文件中将主机名和ip地址进行对应)
  我的配置:192.168.38.66(master server),集群方式的时候,各集群节点(slave)此文件配置相同
  (5)slaves
    如果是单机伪分布式模式,只需要填写localhost或主机名或主机ip地址,如果是集群模式,则写所有datanode 服务器的ip地址或主机名(注:如果是主机名,需要在/etc/hosts文件中将主机名和ip地址进行对应)
  我的配置:
  192.168.38.9(slave)

  192.168.38.73(slave)
  192.168.38.60(slave)
  集群方式的时候,集群主节点(masterServer)需要配置所有集群节点(slave)的ip地址或主机名
  (6)hadoop-env.sh
  在此文件中配置JAVA_HOME和HADOOP_HOME(注:集群中各节点的jvm和hadoop安装路径最好完全一致,否则需要对不同的集群节点中的hadoop-env.sh文件单独配置,难以管理)
页: [1]
查看完整版本: hadoop使用随记1