读书笔记1：Hadoop初始及单机版和集群版的安装

tset123 · 发表于 2016-12-12 10:49:56

读书笔记：Hadoop初始及单机版和集群版的安装

1，hadoop的第一个程序（统计文档中个单词出现的次数）
/*
public class WordCount extends Configured implements Tool{
public static class MapClass extends MapReduceBase implements Mapper<LongWritable,Text,Text,IntWritable>{
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(LongWritable key,Text value,OutputCollector<Text,IntWritable> output,Reporter reporter)throws IOException{
String line = value.toString();
StringTokenizer itr = new StringTokenizer(line);//使用空格进行分词
while(itr.hasMoreTokens()){
word.set(itr.nextToken());//把Token放入Text对象中
output.collect(word,one);
}
}
}
public static class Reduce extends MapReduceBase implements Reducer<Text,IntWritable,Text,IntWritable>{
public void reduce(Text key,Iterator<IntWritable> values,OutputCollector<Text,IntWritable> output,Reporter reporter)throws IOException{
int sum = 0;
while(values.hasNext()){
sum+=values.next().get();
}
output.collect(key,new IntWritable(sum));//输出每个Token的统计结果
}
}
}
*/
2，初始hadoop
（1）NameNode（名字节点）
它位于HDFS的主端，它指导从端的DataNode执行底层I/O任务。运行NameNode会消耗大量的内存和I/O资源。索引NameNode服务器不会同时是DataNode或者TaskTracker。但是他有一个负面的影响，就是Hadoop集群的单点失效。
（2）DateNode（数据节点）
每个集群上的节点都会驻留一个DataNode的守护进程，来执行分布式文件系统的繁重工作。NameNode告知客户端每个数据块驻留在哪个DataNode里，那么客户端直接于DataNode进行通信，而DataNode之间会相互通信，而且DataNode不断向NameNode报告。
（3）Secondary NameNode（次名字节点）
SNN是一个用于检测HDFS集群状态的辅助守护进程，像NameNode一样，SNN通常也是独占一台服务器，该服务器不会运行其他的DataNode或是TaskTracker守护进程。NameNode是Hadoop集群的单一故障点，而SNN快照可以有助于减少停机的时间降低数据丢失的风险。
（4）JobTracker（作业跟踪节点）
JobTracker守护进程是应用程序和Hadoop之间的纽带，一旦提交代码到集群上，JobTracker会确定一系列的执行计划，如果任务失败，JobTracker会自动重启。每个Hadoop集群只有一个JobTracker守候进程，运行在服务器集群的主节点上。
（5）TaskTracker（任务跟踪节点）
TaskTracker管理各个任务在每个从节点上的运行情况。

3，hadoop的安装
（1）单机版hadoop的安装（请参见单机版hadoop的安装.doc）
（2）集群版hadoop的安装（请参见单机版hadoop的安装.doc）
注：以下是SSH的安装
<1>为hadoop集群安装SSH
安装hadoop集群时，需要专门指定一个服务器作为主节点，这个服务器会常驻NameNode和JobTracker守护进程，它也将作为一个基站，负责联络并激活所有从节点上的DataNode和TaskTracker。因此我们要为主节点定义一种手段，使他能够远程的访问到集群中的每个节点。因此，Hadoop使用了无口令的SSH协议。
<2>定义一个公共账号
hadoop-user
<3>SSH的安装
·切换到root用户 su root
·安装SSH sudo apt-get install ssh
·ubuntu服务器上生成私钥和公钥ssh-keygen
显示：Enter file in which to save the key (/root/.ssh/id_rsa):
这里是问你私钥和公钥存放在什么地方，回车表示默认
显示：Created directory '/root/.ssh'.
这里是让你设置密码，输入自己的密码，一定要记住啊。（4位以上）
显示：Enter same passphrase again
再次输入密码，然后回车
显示：
Your identification has been saved in /root/.ssh/id_rsa.
你的私钥存放位置/root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
你的公钥存放位置/root/.ssh/id_rsa.pub
然后地下就是密码的信息。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] 读书笔记1：Hadoop初始及单机版和集群版的安装

浏览过的版块

扫码加入运维网微信交流群