(第4篇)hadoop之魂--mapreduce计算框架,让收集的数据产生价值
通过前面的学习,大家已经了解了HDFS文件系统。有了数据,下一步就要分析计算这些数据,产生价值。接下来我们介绍Mapreduce计算框架,学习数据是怎样被利用的。Mapreduce计算框架
如果将Hadoop比做一头大象,那么MapReduce就是那头大象的电脑。MapReduce是Hadoop核心编程模型。在Hadoop中,数据处理核心就是MapReduce程序设计模型。
本章内容:
1) MapReduce编程模型
2) MapReduce执行流程
3) MapReduce数据本地化
4) MapReduce工作原理
5) MapReduce错误处理机制
1. MapReduce编程模型
Map和Reduce的概念是从函数式变成语言中借来的,整个MapReduce计算过程分为Map阶段和Reduce阶段,也称为映射和缩减阶段,这两个独立的阶段实际上是两个独立的过程,即Map过程和Reduce过程,在Map中进行数据的读取和预处理,之后将预处理的结果发送到Reduce中进行合并。
我们通过一个代码案例,让大家快速熟悉如何通过代码,快速实现一个我们自己的MapReduce。
案例:分布式计算出一篇文章中的各个单词出现的次数,也就是WordCount。
1) 创建map.py文件,写入以下代码:
#!/usr/bin/env python
import sys
word_list = []
for line in sys.stdin:
word_list = line.strip().split(' ')
if len(word_list)
页:
[1]