设为首页 收藏本站
查看: 725|回复: 0

[经验分享] Hadoop配置文件配置项定义说明

[复制链接]

尚未签到

发表于 2016-12-9 06:08:55 | 显示全部楼层 |阅读模式
  hadoop的集群配置中,大部分都用的默认设置,如果想要提高整个集群的性能,可以考虑通过修改配置的方法实现,配置项大部分都配置在这三个文件里:core_site.xml, hdfs_site.xml, mapred_site.xml, 下面将经常会用到的配置项总结如下:(待补充)
core_site.xml
  fs.default.name
  
说明: Name Node的URI

value: hdfs://hostname:port/
备注:hostname要用主机名或域名,不能使用ip
  fs.trash.interval
  说明:hadoop垃圾回收机制,每隔多长时间清理一次垃圾
  value:1440
  备注:默认值是0,不打开垃圾收回机制。删除掉的文件将直接清除,不保存。如果设置了,则将保存到本地的.crash文件夹下。
  fs.checkpoint.dir 
  说明:本地文件系统DFS secondaryname节点存储临时图像目录
  value:/disk2/cloudera/hadoop/dfs/namesecondary
  备注:用于:hadoop namenode -importCheckpoint,从检查点目录装载镜像并保存到当前检查点目录,检查点目录由fs.checkpoint.dir指定。
  hadoop.tmp.dir
  说明:Hadoop的默认临时文件存放路径
  value:/home/hadoop/hadoop/tmp
  备注:这个最好配置,如果在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。
       不过如果删除了NameNode机器的此目录,那么就需要重新执行NameNode格式化的命令
  io.file.buffer.size
  说明:读写序列文件缓冲区大小
  value:16384
  备注:值应该设置为硬件页面大小的倍数,默认设置为4096,请设置为4096的倍数
  io.bytes.per.checksum
  说明:
  value:
  备注:
  io.skip.checksum.errors  
  说明:
  value:
  备注:
  io.compression.codecs    
  说明:
  value:
  备注:
  io.serializations 
  说明:
  value:
  备注:
hdfs_site.xml
  dfs.name.dir
  说明:设定DFS Name节点中的命名空间表格文件,在本地系统中的保存位置。 可以设置多个,通过","分隔,fsimage文件,会被复制到多个路径中,用于备份。
  value:/home/hadoop/hadoop/name
  备注:其中的一个路径,可以利用nfs映射到我们的共享文件夹下,形成异地备份
  dfs.data.dir
  说明:设定DFS Data节点中的数据块在本地系统中的保存位置。可以设置多个,通过"," 分隔。设置的文件夹如果不存在,将被忽略。
  value:/home/hadoop/data1, /home/hadoop/data2
备注:
 
  dfs.replication
  说明:缺省的文件块被复制的次数。在文件被创建的时候可以指定复制的块数,如果在创建的时候没有指定,则使用该缺省值。
  value:3
  备注:
  dfs.block.size
  说明:新文件被分隔的缺省块容量。
  value:268435456
  备注:必须是512的倍数
  dfs.datanode.max.xcievers
  说明:datanode所允许同时执行的发送和接受任务的数量 
  value:10240
  备注:默认是256.该值太小。可以修改为10240
  dfs.web.ugi
  说明:hadoop的web界面访问权限设置。
  value:hadoop,hadoop
  备注:value语法:用户名,用户组 
  如何设置:
             hadoop fs -chmod (修改文件所有者,文件所属组,其他用户的读、写、执行权限)
             haddop fs -chown  (修改文件所有者)
             hadoop fs -chgrp   (修改文件所属组) 
  dfs.permissions
  说明:对HDFS是否启用认证。
  value:true
  备注:默认为true
  dfs.permissions.supergroup
  说明:超级用户组名称
  value:supergroup
  备注:
  dfs.safemode.threshold.pct
  说明:启动的时候,NameNode会等待所有的datanode报告block状态,查看所有的block的副本是否达到最低要求,当报告合格的数量达到设置的值,则退出safemode。 
  value:0.95f
  备注:默认为0.999f
  dfs.safemode.extension
  说明:Namenode在合格的datanode数目达到要求的时候,并不是马上离开safemode状态,会有一个扩展时间,让剩余的 datanode来报告block信息,这个扩展时间默认是30秒,单位是毫秒。
  value:30000
  备注:时间默认是30秒,单位是毫秒
  dfs.balance.bandwidthPerSec
  说明:用于平衡数据。每秒平衡数据量最大带宽。可以放大。 
  value:10485760
  备注:默认是10485760
  dfs.replication.min
  说明:创建文件时的最小复制数。主要用于dfs.safemode.threshold.pct
  value:1
  备注:默认为1
  dfs.datanode.handler.count
  说明:datanode上用于处理RPC的线程数。
  value:3
  备注:默认为3,较大集群,可适当调大些,比如8。需要注意的是,每添加一个线程,需要的内存增加。
  dfs.datanode.du.reserved
  说明:表示在datanode对磁盘写时候,保留多少非dfs的磁盘空间, 从而避免dfs将所在的磁盘写满 
  value:10737418240
  备注:默认为0,单位是字节
  dfs.df.interval
  说明:磁盘使用统计刷新时间间隔,单位毫秒
  value:60000
  备注:默认是60000,单位是毫秒
  dfs.namenode.handler.count
  说明:namenode的rpc调用线程数。
  value:10
  备注:默认是10
  dfs.namenode.plugins
  说明:
  value:
  备注:
  dfs.datanode.plugins
  说明:
  value:
  备注:
  dfs.thrift.address
  说明:
  value:
  备注:
  dfs.hosts/dfs.hosts.exclude
  说明:Data Node白名单/黑名单文件
value:
备注:
mapred_site.xml
  mapred.job.tracker
  说明:JobTracker的地址
  value:
  备注:格式为 hostname:port
mapred.local.dir
  说明:运行 mapreduce 中间结果存储处,保存MapReduce临时文件的本地目录
  value:
  备注:可设置多个,用逗号分隔
 
mapred.system.dir
  说明:HDFS上MapReduce保存系统文件的目录
  value:
  备注:
 

  mapred.job.tracker.handler.count
  说明: jobtracker同时与tasktracker通信的线程数
  value:
  备注:
mapreduce.jobtracker.staging.root.dir
  说明:
  value:
  备注:
 
mapred.temp.dir
  说明:
  value:
  备注:
 
mapred.child.java.opts
  说明:设置JVM堆的最大可用内存,需从应用程序角度进行配置。
  value:
  备注:
 
  mapred.tasktracker.map.tasks.maximum
  说明:tasktracker上同时运行的map的最大数量
  value:2
  备注:默认为2
 
  mapred.tasktracker.reduce.tasks.maximum
  说明:tasktracker上同时运行的task的最大数量
  value:2
  备注:默认为2

  mapred.hosts/mapred.host.exclude
  说明:MapReduce白名单/黑名单文件
  value:
  备注:
  mapred.queue.names
说明: 队列名
  value:
备注: hadoop MapReduce系统默认有一个"default"的Job队列(pool).
  mapred.map.tasks.speculative.execution
  说明:
  value:
  备注:
 
  mapred.reduce.tasks.speculative.execution
  说明:
  value:
  备注:
 
  io.sort.mb
  说明:排序使用的最大内存
  value:
  备注:
 
io.sort.factor

  说明: 排序因子。同时合并的数据流的数量
  value:
  备注:当一个map task执行完之后,本地磁盘上(mapred.local.dir)有若干个spill文件,merge sort 把这些文件合成一个。执行merge sort的时候,每次同时打开多少个spill文件由该参数决定。 打开的文件越多,不一定merge sort就越快,所以要根据数据情况适当的调整。
  keep.failed.task.files
  说明:
  value:
  备注:
 
  mapred.job.reuse.jvm.num.tasks
  说明:
  value:
  备注:
 
  mapred.child.env
  说明:
  value:
  备注:
  mapred.child.ulimit 
  说明:
  value:
  备注:
  mapred.output.compress/mapred.compress.map.output
  说明:中间结果和最终结果是否要进行压缩,如果是,指定压缩方式(Mapred.compress.map.output.codec/  Mapred.output.compress.codec)。 推荐使用LZO压缩。Intel内部测试表明,相比未压缩,使用LZO压缩的  TeraSort作业,运行时间减少60%,且明显快于Zlib压缩。 
  value
  备注:
  tasktracker.http.threads
  说明:HTTP server上的线程数。运行在每个TaskTracker上, 用于处理map task输出。
  value:8
  备注:tasktracker开http服务的线程数。用于reduce拉取map输出数据,大集群可以将其设为40~50。 
  fs.inmemory.size.mb
  说明:reducer在合并map输出数据使用的内存空间
  value:
  备注: 默认使用200M 
  mapred.reduce.parallel.copies
  说明:reducer同时从mapper上拉取的文件数
  value:
  备注:
  mapred.output.compression.codec
  说明:
  value:
  备注:
  mapred.map.output.compression.codec
  说明:
  value:
  备注:
  jobtracker.thrift.address
  说明:
  value:
  备注:
  mapred.jobtracker.plugins
  说明:
  value:
  备注:

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-311493-1-1.html 上篇帖子: Hadoop Pipes运行ant -Dcompile.c++=yes examples报错解决 下篇帖子: hadoop patition 分区简介和自定义
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表