设为首页 收藏本站
查看: 813|回复: 0

[经验分享] 优化Hadoop Balancer平衡的速度

[复制链接]

尚未签到

发表于 2018-10-28 11:45:34 | 显示全部楼层 |阅读模式
  转载之:
  https://blog.csdn.net/jiangshouzhuang/article/details/52367706
  之前我在博客中介绍了HDFS的Block数据balancer重分布实战内容:
  http://blog.csdn.net/jiangshouzhuang/article/details/51879102
  本篇文章我们再来简单介绍一下优化Hadoop Balancer平衡的速度涉及到的几个重要参数。
  1.  dfs.datanode.max.transfer.threads
  修改dfs.datanode.max.transfer.threads=4096 (如果运行HBase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanode.max.xcievers。
  2.  dfs.datanode.balance.bandwidthPerSec
  修改dfs.datanode.balance.bandwidthPerSec=52428800,指定DataNode用于balancer的带宽为50MB,这个根据情况而定,如果交换机性能好点的,完全可以设定100MB,单位是Byte,如果机器的网卡和交换机的带宽有限,可以适当降低该速度,比如10MB,默认是1048576(1MB)。
  hdfs dfsadmin-setBalancerBandwidth 52428800
  之前遇到一位朋友,他们公司的Hadoop生产环境上,HDFS分配非常不均匀,而且有的DataNode节点的磁盘使用率几乎100%了,导致一些作业报错。后来公司采取Hadoop balancer来对数据进行平衡操作,但是数据量太大,高达50T作业,所以采用Hadoop balancer方法进行平衡,需要的时间太长。
  后来这位朋友咨询我,刚开始我是让他调整hadoop halancer的参数,比如线程数,带宽等,效果都没有那么明显,毕竟数据量太大。后面考虑到他们的数据副本为3,所以可以考虑将一些DataNode磁盘利用率太高的节点先下线操作(必须逐个节点操作,不可同时下线多个节点,防止数据丢失),即Decommission Datanode。完成下线后,再进行格式化数据磁盘操作,然后再将此DataNode添加到集群中,这样新的数据就会较快地同步过来。
  最后,我们补充点Decommission Datanode相关知识。
  Decommission Datanode主要有两个步骤:
  1.  在Namenode上,把需要Decommission的Datanode的机器名加入到dfs.hosts.exclude(该配置项在hdfs-site.xml)所指定文件中,也就是告诉Namenode哪些Datanode要被Decommission。
  把需要Decommission的节点写到文件/etc/hadoop/conf/dfs.exclude中去。
  
  dfs.hosts.exclude
  /etc/hadoop/conf/dfs_decommission.exclude
  
  2.  用如下命令启动Decommission
  hdfs dfsadmin -refreshNodes
  Decommission Datanode的时候需要保证在该Datanode移除以后,HDFS上的文件还能满足replica factor的最低要求。
  比如,一个只有3个Datanode的HDFS集群,文件默认replica factor(dfs.replication参数设置)是3,那么移除任何一个Datanode都会导致某些文件不能满足replica factor的最低要求。当试图移除一个Datanode的时候,会一直处在Decommissioning的状态,因为它找不到别的机器来迁移它的数据了。这个问题通常容易出现在小集群上。
  一个解决办法就是临时把相应文件的replica factor调低。
  1. 用如下命令来查看HDFS中所有文件的replica factor
  hdfsfsck / -files -blocks
  其中repl=1表示该文件的该block的replica factor为1。通过这个命令就可以找到那些replica factor比较高的文件了。
  2 . 调整文件的replicafactor
  我们需要注意的是,replica factor是文件的属性,而不是集群的属性,也就是说同一个集群中的文件可以有不同的replica factor。因此,我们需要针对文件修改replica factor。对应的命令是:
  hdfs dfs -setrep [-R] [-w]
  其中

  •   -R表示recursive,可以对一个目录及其子目录设置replica factor
  •   表示需要设置的replica factor的值
  •   表示需要设置的replica factor的文件或目录路径
  •   -w表示等待复制完成,可能需要等待很长时间


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-627464-1-1.html 上篇帖子: [总结型] HADOOP HDFS BALANCER介绍及经验总结 下篇帖子: Hadoop 3.0磁盘均衡器(diskbalancer)新功能及使用介绍
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表