（第4篇）hadoop之魂--mapreduce计算框架，让收集的数据产生价值

吸毒的虫子 发表于 2018-10-29 09:00:11

　　通过前面的学习，大家已经了解了HDFS文件系统。有了数据，下一步就要分析计算这些数据，产生价值。接下来我们介绍Mapreduce计算框架，学习数据是怎样被利用的。
　　Mapreduce计算框架
　　如果将Hadoop比做一头大象，那么MapReduce就是那头大象的电脑。MapReduce是Hadoop核心编程模型。在Hadoop中，数据处理核心就是MapReduce程序设计模型。
　　本章内容：
　　1) MapReduce编程模型
　　2) MapReduce执行流程
　　3) MapReduce数据本地化
　　4) MapReduce工作原理
　　5) MapReduce错误处理机制
1. MapReduce编程模型
　　Map和Reduce的概念是从函数式变成语言中借来的，整个MapReduce计算过程分为Map阶段和Reduce阶段，也称为映射和缩减阶段，这两个独立的阶段实际上是两个独立的过程，即Map过程和Reduce过程，在Map中进行数据的读取和预处理，之后将预处理的结果发送到Reduce中进行合并。
　　我们通过一个代码案例，让大家快速熟悉如何通过代码，快速实现一个我们自己的MapReduce。
　　案例：分布式计算出一篇文章中的各个单词出现的次数，也就是WordCount。
　　1) 创建map.py文件，写入以下代码：
　　#!/usr/bin/env python
　　import sys
　　word_list = []
　　for line in sys.stdin:
　　word_list = line.strip().split(' ')
　　if len(word_list)

页: [1]

运维网's Archiver

（第4篇）hadoop之魂--mapreduce计算框架，让收集的数据产生价值