Hadoop入门实例

a6266318 发表于 2017-12-17 19:35:14

　　首先要说明的是运行Hadoop需要jdk1.6或以上版本，如果你还没有搭建好Hadoop集群，请参考我的另一篇文章：
　　Linux环境搭建Hadoop伪分布模式
　　马上进入正题。
　　1.启动Hadoop集群，使用jps查看所有结点是否启动成功；
　　2.进入hadoop的bin目录，查看hadoop中的例程
　　运行./hadoop jar /opt/hadoop/hadoop-examples-*-.jar,红框中的jar包根据你的hadoop版本而定；

　　3.试图运行wordcount，./hadoop jar /opt/hadoop/hadoop-examples-1.0.4.jar wordcount

　　显示出参数列表为：wordcount <in> <out>，所以我们要指定分布式文件的输入、输出目录；
　　4.创建输入目录
　　在bin目录下运行：./hadoop dfs -mkdir /home/hadoop/input （本地的mkdir可能不可用）
　　5.下载几篇英文文章(txt最好)，放入刚刚创建的输入目录
　　我使用的是window下的虚拟机，可以用xftp将本地文件上传到Linux服务器，很方便。。
　　./hadoop dfs -put input/* /home/hadoop/input
　　(注：第一个目录是你存放文章的本地目录，*通配符，表示该目录下的所有文档，
　　第二个目录是你的分布式文件系统的输入目录)
　　查看测试文件：./hadoop dfs -ls /home/hadoop/input

　　6.运行，每次运行前请先删除输出目录，因为他是自动生成的；
　　或者每次都创建一个新的目录，否则会运行失败。
　　./hadoop jar ../hadoop-examples-1.0.4.jar wordcount /home/hadoop/input /home/hadoop/output

　　7.查看单词统计结果，默认生成的文件part-r-00000
　　./hadoop dfs -cat /home/hadoop/output/part-r-00000

　　我选择的是一篇经济学论文，这个就是部分结果了。
　　开心！！！

页: [1]

运维网's Archiver

Hadoop入门实例