xyzjr 发表于 2018-10-28 13:24:13

Apache Hadoop 入门教程第二章

  Apache Hadoop 单节点上的安装配置
  下面将演示快速完成在单节点上的 Hadoop 安装与配置,以便你对 Hadoop HDFS 和 MapReduce 框架有所体会。

[*]先决条件
  支持平台:
  GNU/Linux:已经证实了 Hadoop 在 GNU/Linux 平台上可以支持 2000 个节点的集群;
  Windows。本文所演示的例子都是在 GNU/Linux 平台上运行,若在 Windows 运行,可以参阅 http://wiki.apache.org/hadoop/Hadoop2OnWindows。
  所需软件:
  Java 必须安装。Hadoop 2.7 及以后版本,需要安装 Java 7,可以是 OpenJDK 或者是 Oracle(HotSpot)的 JDK/JRE。其他版本的 JDK 要求,可以参阅 http://wiki.apache.org/hadoop/HadoopJavaVersions;
  ssh 必须安装并且保证 sshd 一直运行,以便用 Hadoop 脚本管理远端Hadoop 守护进程。下面是在 Ubuntu 上的安装的示例:
  $ sudo apt-get install ssh
  $ sudo apt-get install rsync
  1
  2

[*]下载
  下载地址在 http://www.apache.org/dyn/closer.cgi/hadoop/common/。

[*]运行 Hadoop 集群的准备工作
  解压所下载的 Hadoop 发行版。编辑 etc/hadoop/hadoop-env.sh 文件,定义如下参数:
设置 Java 的安装目录
  export JAVA_HOME=/usr/java/latest
  1
  2
  尝试如下命令:
  $ bin/hadoop
  1
  将会显示 hadoop 脚本的使用文档。
  现在你可以用以下三种支持的模式中的一种启动 Hadoop 集群:
  本地(单机)模式
  伪分布式模式
  完全分布式模式

[*]单机模式的操作方法
  默认情况下,Hadoop 被配置成以非分布式模式运行的一个独立 Java 进程。这对调试非常有帮助。
  下面的实例将已解压的 conf 目录拷贝作为输入,查找并显示匹配给定正则表达式的条目。输出写入到指定的 output 目录。
  $ mkdir input
  $ cp etc/hadoop/.xml input
  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output 'dfs+'
  $ cat output/
  1
  2
  3
  4

[*]伪分布式模式的操作方法
  Hadoop 可以在单节点上以所谓的伪分布式模式运行,此时每一个 Hadoop 守护进程都作为一个独立的 Java 进程运行。
  配置
  使用如下的:
  etc/hadoop/core-site.xml:
  
  
  fs.defaultFS
  hdfs://localhost:9000
  
  
  1
  2
  3
  4
  5
  6
  etc/hadoop/hdfs-site.xml:
  
  
  dfs.replication
  1
  
  
  有兴趣的可以继续看下一章
  很多人都知道我有大数据培训资料,都天真的以为我有全套的大数据开发、hadoop、spark等视频学习资料。我想说你们是对的,我的确有大数据开发、hadoop、spark的全套视频资料。
  如果你对大数据开发感兴趣可以加口群领取免费学习资料: 763835121

页: [1]
查看完整版本: Apache Hadoop 入门教程第二章