设为首页 收藏本站
查看: 1184|回复: 0

[经验分享] 读书笔记1:Hadoop初始及单机版和集群版的安装

[复制链接]

尚未签到

发表于 2016-12-12 10:49:56 | 显示全部楼层 |阅读模式
读书笔记:Hadoop初始及单机版和集群版的安装

1,hadoop的第一个程序(统计文档中个单词出现的次数)
/*
public class WordCount extends Configured implements Tool{
public static class MapClass extends MapReduceBase implements Mapper<LongWritable,Text,Text,IntWritable>{
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(LongWritable key,Text value,OutputCollector<Text,IntWritable> output,Reporter reporter)throws IOException{
String line = value.toString();
StringTokenizer itr = new StringTokenizer(line);//使用空格进行分词
while(itr.hasMoreTokens()){
word.set(itr.nextToken());//把Token放入Text对象中
output.collect(word,one);
}
}
}
public static class Reduce extends MapReduceBase implements Reducer<Text,IntWritable,Text,IntWritable>{
public void reduce(Text key,Iterator<IntWritable> values,OutputCollector<Text,IntWritable> output,Reporter reporter)throws IOException{
int sum = 0;
while(values.hasNext()){
sum+=values.next().get();
}
output.collect(key,new IntWritable(sum));//输出每个Token的统计结果
}
}
}
*/
2,初始hadoop
(1)NameNode(名字节点)
它位于HDFS的主端,它指导从端的DataNode执行底层I/O任务。运行NameNode会消耗大量的内存和I/O资源。索引NameNode服务器不会同时是DataNode或者TaskTracker。但是他有一个负面的影响,就是Hadoop集群的单点失效。
(2)DateNode(数据节点)
每个集群上的节点都会驻留一个DataNode的守护进程,来执行分布式文件系统的繁重工作。NameNode告知客户端每个数据块驻留在哪个DataNode里,那么客户端直接于DataNode进行通信,而DataNode之间会相互通信,而且DataNode不断向NameNode报告。
(3)Secondary NameNode(次名字节点)
SNN是一个用于检测HDFS集群状态的辅助守护进程,像NameNode一样,SNN通常也是独占一台服务器,该服务器不会运行其他的DataNode或是TaskTracker守护进程。NameNodeHadoop集群的单一故障点,而SNN快照可以有助于减少停机的时间降低数据丢失的风险。
(4)JobTracker(作业跟踪节点)
JobTracker守护进程是应用程序和Hadoop之间的纽带,一旦提交代码到集群上,JobTracker会确定一系列的执行计划,如果任务失败,JobTracker会自动重启。每个Hadoop集群只有一个JobTracker守候进程,运行在服务器集群的主节点上。
(5)TaskTracker(任务跟踪节点)
TaskTracker管理各个任务在每个从节点上的运行情况。
 
3,hadoop的安装
(1)单机版hadoop的安装(请参见 单机版hadoop的安装.doc)
(2)集群版hadoop的安装(请参见 单机版hadoop的安装.doc)
 注:以下是SSH的安装
<1>为hadoop集群安装SSH
安装hadoop集群时,需要专门指定一个服务器作为主节点,这个服务器会常驻NameNodeJobTracker守护进程,它也将作为一个基站,负责联络并激活所有从节点上的DataNodeTaskTracker。因此我们要为主节点定义一种手段,使他能够远程的访问到集群中的每个节点。因此,Hadoop使用了无口令的SSH协议。
<2>定义一个公共账号
hadoop-user
<3>SSH的安装
·切换到root用户   su root 
·安装SSH   sudo apt-get install ssh
·ubuntu服务器上生成私钥和公钥ssh-keygen
显示:Enter file in which to save the key (/root/.ssh/id_rsa): 
这里是问你私钥和公钥存放在什么地方,回车表示默认
显示:Created directory '/root/.ssh'.
这里是让你设置密码,输入自己的密码,一定要记住啊。(4位以上)
显示:Enter same passphrase again
再次输入密码,然后回车
显示:
Your identification has been saved in /root/.ssh/id_rsa.
你的私钥存放位置/root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
你的公钥存放位置/root/.ssh/id_rsa.pub
然后地下就是密码的信息。
 
 
 

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-313199-1-1.html 上篇帖子: ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.io.IOException: Inco 下篇帖子: Hadoop的failed to report status for 600 seconds. Killing!解决方案
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表