设为首页 收藏本站
查看: 379|回复: 0

[经验分享] hadoop shuffle 学习

[复制链接]

尚未签到

发表于 2016-12-4 10:38:17 | 显示全部楼层 |阅读模式
hadoop的核心就是shuffle,最好的学习方式就是看源代码
但是编译hadoop的源代码成本太大,而且由于maven中的有些资源被天草屏蔽的关系,不推荐。
建立一个项目,引用最简单的wordcount, 将jar包attach到源代码上,再用远程调试就ok了。


打开mapreduce的调试端口
<property>
  <name>mapred.child.java.opts</name>
  <value>-Xmx200m -Xdebug -Xrunjdwp:transport=dt_socket,address=50051,server=y,suspend=y</value>
</property>

修改spill的参数 默认100
  <name>mapreduce.task.io.sort.mb</name>
  <value>1</value>

mapreduce的info日志
/usr/hadoop/hadoop-2.2.0/logs/userlogs

map端的shuffle

collect阶段
mapreduce.task.io.sort.mb  默认100(MB)
每次Mapper中context.write(word, one); 都会调用correct方法,将数据放到buffer中,
当buffer 超过了0.8*100MB=80MB 时会触发sortAndSpill方法,将buffer中的数据spill到磁盘,文件大小为40MB
如果设置了combiner的话,spill时会调用reduce的合并代码减少临时文件的输出14MB(可能)
可以用一个2MB的文件来做测试, 将mb调成1

merge阶段
mapreduce.task.io.sort.factor  默认 10
从spill的磁盘文件中进行多路归并排序,默认是10个一组
如果设置了combiner的话,也会进行一次combine


MapTask
1573行 是spill输出的文件
1820行 是merge的输出文件
可以用strings 命令看看输出的内容

注意
如果没有combiner的话, shuffle-Map端的输出还是
a 1
a 1
b 1
的形式,  不是
a 2
b 1

如果只有一个文件并且设置了combiner的话, 就不需要reduce端了。




reduce的shuffle端
就是各种merge
内存merge,磁盘merge, final merge


参考
http://www.wnt.com.cn/html/news/tophome/top_xytd/top_xytd_jswz/bbs_service/20130711/111140562.html
http://blog.csdn.net/mrtitan/article/details/8711366
http://langyu.iyunv.com/blog/1171091
http://zhangjie.me/eclipse-debug-hadoop/

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-309460-1-1.html 上篇帖子: Hadoop-环境搭建 下篇帖子: windows下配置hadoop集群
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表