Hadoop配置文件表(如需要请下载附件)
HDFS 参数描述默认配置文件例子值fs.default.name namenode RPC交互端口8020core-site.xmlhdfs://master:8020/dfs.http.address NameNode web管理端口50070hdfs- site.xml0.0.0.0:50070dfs.datanode.addressdatanode 控制端口50010hdfs -site.xml 0.0.0.0:50010dfs.datanode.ipc.addressdatanode的RPC服务器地址和端口50020hdfs-site.xml0.0.0.0:50020dfs.datanode.http.addressdatanode的HTTP服务器和端口50075hdfs-site.xml 0.0.0.0:50075MapReduce 参数描述默认配置文件例子值mapred.job.trackerjob-tracker交互端口 8021mapred-site.xmlhdfs://master:8021/jobtracker的web管理端口50030mapred-site.xml0.0.0.0:50030mapred.task.tracker.http.addresstask-tracker的HTTP端口50060mapred-site.xml0.0.0.0:50060其他端口 参数描述默认配置文件例子值dfs.secondary.http.addresssecondary NameNode web管理端口50090hdfs-site.xml0.0.0.0:50090core-default.html 参数名参数值参数说明 hadoop.tmp.dir /tmp/hadoop-${user.name} 临时目录设定 hadoop.native.lib true 使用本地hadoop库标识。 hadoop.http.filter.initializers http服务器过滤链设置 hadoop.security.group.mapping org.apache.hadoop.security.ShellBasedUnixGroupsMapping组内用户的列表的类设定 hadoop.security.authorization false 服务端认证开启 hadoop.security.authentication simple 无认证或认证设置 hadoop.security.token.service.use_iptrue 是否开启使用IP地址作为连接的开关 hadoop.logfile.size 10000000日志文件最大为10M hadoop.logfile.count10日志文件数量为10个 io.file.buffer.size4096流文件的缓冲区为4K io.bytes.per.checksum512校验位数为512字节 io.skip.checksum.errorsfalse校验出错后是抛出异常还是略过标识。True则略过。 io.compression.codecsorg.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.SnappyCodec压缩和解压的方式设置 io.serializationsorg.apache.hadoop.io.serializer.WritableSerialization序例化和反序列化的类设定 fs.default.namefile:/// 缺省的文件URI标识设定。 fs.trash.interval0文件废弃标识设定,0为禁止此功能 fs.file.implorg.apache.hadoop.fs.LocalFileSystem 本地文件操作类设置 fs.hdfs.implorg.apache.hadoop.hdfs.DistributedFileSystem HDFS文件操作类设置 fs.s3.implorg.apache.hadoop.fs.s3.S3FileSystem S3文件操作类设置 fs.s3n.impl org.apache.hadoop.fs.s3native.NativeS3FileSystemS3文件本地操作类设置 fs.kfs.impl org.apache.hadoop.fs.kfs.KosmosFileSystemKFS文件操作类设置. fs.hftp.impl org.apache.hadoop.hdfs.HftpFileSystemHTTP方式操作文件设置 fs.hsftp.impl org.apache.hadoop.hdfs.HsftpFileSystemHTTPS方式操作文件设置 fs.webhdfs.impl org.apache.hadoop.hdfs.web.WebHdfsFileSystemWEB方式操作文件类设置 fs.ftp.impl org.apache.hadoop.fs.ftp.FTPFileSystemFTP文件操作类设置 fs.ramfs.impl org.apache.hadoop.fs.InMemoryFileSystem内存文件操作类设置 fs.har.impl org.apache.hadoop.fs.HarFileSystem压缩文件操作类设置. fs.har.impl.disable.cachetrue是否缓存har文件的标识设定 fs.checkpoint.dir ${hadoop.tmp.dir}/dfs/namesecondary备份名称节点的存放目前录设置 fs.checkpoint.edits.dir ${fs.checkpoint.dir}备份名称节点日志文件的存放目前录设置 fs.checkpoint.period 3600动态检查的间隔时间设置 fs.checkpoint.size 67108864日志文件大小为64M fs.s3.block.size 67108864写S3文件系统的块的大小为64M fs.s3.buffer.dir ${hadoop.tmp.dir}/s3S3文件数据的本地存放目录 fs.s3.maxRetries 4S3文件数据的偿试读写次数 fs.s3.sleepTimeSeconds 10S3文件偿试的间隔 local.cache.size 10737418240缓存大小设置为10GB io.seqfile.compress.blocksize1000000压缩流式文件中的最小块数为100万 io.seqfile.lazydecompress true块是否需要压缩标识设定 io.seqfile.sorter.recordlimit1000000内存中排序记录块类最小为100万 io.mapfile.bloom.size1048576BloomMapFiler过滤量为1M io.mapfile.bloom.error.rate0.005 hadoop.util.hash.typemurmur缺少hash方法为murmur ipc.client.idlethreshold4000连接数据最小阀值为4000 ipc.client.kill.max10一个客户端连接数最大值为10 ipc.client.connection.maxidletime10000断开与服务器连接的时间最大为10秒 ipc.client.connect.max.retries10建立与服务器连接的重试次数为10次 ipc.server.listen.queue.size128接收客户连接的监听队例的长度为128 ipc.server.tcpnodelayfalse开启或关闭服务器端TCP连接算法 ipc.client.tcpnodelayfalse开启或关闭客户端TCP连接算法 webinterface.private.actionsfalseWeb交互的行为设定
hadoop.rpc.socket.factory.class.default org.apache.hadoop.net.StandardSocketFactory缺省的socket工厂类设置 hadoop.rpc.socket.factory.class.ClientProtocol 与dfs连接时的缺省socket工厂类 hadoop.socks.server 服务端的工厂类缺省设置为SocksSocketFactory. topology.node.switch.mapping.impl org.apache.hadoop.net.ScriptBasedMapping topology.script.file.name topology.script.number.args 100参数数量最多为100 hadoop.security.uid.cache.secs 14400 hdfs-default.html 参数名参数值参数说明 dfs.namenode.logging.level info 输出日志类型 dfs.secondary.http.address 0.0.0.0:50090备份名称节点的http协议访问地址与端口 dfs.datanode.address 0.0.0.0:50010数据节点的TCP管理服务地址和端口 dfs.datanode.http.address 0.0.0.0:50075数据节点的HTTP协议访问地址和端口 dfs.datanode.ipc.address 0.0.0.0:50020数据节点的IPC服务访问地址和端口 dfs.datanode.handler.count 3数据节点的服务连接处理线程数 dfs.http.address 0.0.0.0:50070名称节点的http协议访问地址与端口 dfs.https.enable false 支持https访问方式标识 dfs.https.need.client.auth false 客户端指定https访问标识 dfs.https.server.keystore.resourcessl-server.xmlSsl密钥服务端的配置文件 dfs.https.client.keystore.resourcessl-client.xmlSsl密钥客户端的配置文件 dfs.datanode.https.address 0.0.0.0:50475数据节点的HTTPS协议访问地址和端口 dfs.https.address 0.0.0.0:50470名称节点的HTTPS协议访问地址和端口 dfs.datanode.dns.interface default 数据节点采用IP地址标识 dfs.datanode.dns.nameserver default 指定DNS的IP地址 dfs.replication.considerLoad true 加载目标或不加载的标识 dfs.default.chunk.view.size 32768浏览时的文件块大小设置为32K dfs.datanode.du.reserved 0每个卷预留的空闲空间数量 dfs.name.dir ${hadoop.tmp.dir}/dfs/name存贮在本地的名字节点数据镜象的目录,作为名字节点的冗余备份 dfs.name.edits.dir ${dfs.name.dir} 存贮文件操作过程信息的存贮目录 dfs.web.ugi webuser,webgroup Web接口访问的用户名和组的帐户设定 dfs.permissions true 文件操作时的权限检查标识。 dfs.permissions.supergroup supergroup 超级用户的组名定义 dfs.block.access.token.enable false 数据节点访问令牌标识 dfs.block.access.key.update.interval600升级访问钥时的间隔时间 dfs.block.access.token.lifetime 600访问令牌的有效时间 dfs.data.dir ${hadoop.tmp.dir}/dfs/data数据节点的块本地存放目录 dfs.datanode.data.dir.perm 755数据节点的存贮块的目录访问权限设置 dfs.replication 3缺省的块复制数量 dfs.replication.max 512块复制的最大数量 dfs.replication.min 1块复制的最小数量 dfs.block.size 67108864缺省的文件块大小为64M dfs.df.interval 60000磁盘空间统计间隔为6秒 dfs.client.block.write.retries 3块写入出错时的重试次数 dfs.blockreport.intervalMsec 3600000块的报告间隔时为1小时 dfs.blockreport.initialDelay 0块顺序报告的间隔时间 dfs.heartbeat.interval 3数据节点的心跳检测间隔时间 dfs.namenode.handler.count 10名称节点的连接处理的线程数量 dfs.safemode.threshold.pct 0.999f 启动安全模式的阀值设定
dfs.safemode.extension 30000当阀值达到量值后扩展的时限 dfs.balance.bandwidthPerSec 1048576启动负载均衡的数据节点可利用带宽最大值为1M dfs.hosts 可与名称节点连接的主机地址文件指定。 dfs.hosts.exclude 不充计与名称节点连接的主机地址文件设定 dfs.max.objects 0文件数、目录数、块数的最大数量 dfs.namenode.decommission.interval 30名称节点解除命令执行时的监测时间周期 dfs.namenode.decommission.nodes.per.interval5名称节点解除命令执行是否完检测次数 dfs.replication.interval 3名称节点计算数据节点的复制工作的周期数. dfs.access.time.precision 3600000充许访问文件的时间精确到1小时 dfs.support.append false 是否充许链接文件指定 dfs.namenode.delegation.key.update-interval86400000名称节点上的代理令牌的主key的更新间隔时间为24小时 dfs.namenode.delegation.token.max-lifetime 604800000代理令牌的有效时间最大值为7天 dfs.namenode.delegation.token.renew-interval86400000代理令牌的更新时间为24小时 dfs.datanode.failed.volumes.tolerated0决定停止数据节点提供服务充许卷的出错次数。0次则任何卷出错都要停止数据节点 mapred-default.html 参数名参数值参数说明 hadoop.job.history.location 作业跟踪管理器的静态历史文件的存放目录。 hadoop.job.history.user.location 可以指定具体某个作业的跟踪管理器的历史文件存放目录 mapred.job.tracker.history.completed.location 已完成作业的历史文件的存放目录 io.sort.factor10排完序的文件的合并时的打开文件句柄数 io.sort.mb100排序文件的内存缓存大小为100M io.sort.record.percent0.05排序线程阻塞的内存缓存剩余比率 io.sort.spill.percent0.8当缓冲占用量为该值时,线程需要将内容先备份到磁盘中。 io.map.index.skip0索引条目的间隔设定 mapred.job.tracker local 作业跟踪管理器是否和MR任务在一个进程中 mapred.job.tracker.http.address0.0.0.0:50030作业跟踪管理器的HTTP服务器访问端口和地址 mapred.job.tracker.handler.count 10作业跟踪管理器的管理线程数,线程数比例是任务管理跟踪器数量的0.04 mapred.task.tracker.report.address 127.0.0.1:0任务管理跟踪器的主机地址和端口地址
mapred.local.dir ${hadoop.tmp.dir}/mapred/local MR的中介数据文件存放目录 mapred.system.dir ${hadoop.tmp.dir}/mapred/systemMR的控制文件存放目录 mapreduce.jobtracker.staging.root.dir ${hadoop.tmp.dir}/mapred/staging每个正在运行作业文件的存放区 mapred.temp.dir ${hadoop.tmp.dir}/mapred/temp MR临时共享文件存放区 mapred.local.dir.minspacestart 0MR本地中介文件删除时,不充许有任务执行的数量值。 mapred.local.dir.minspacekill 0MR本地中介文件删除时,除非所有任务都已完成的数量值。 mapred.tasktracker.expiry.interval600000任务管理跟踪器不发送心跳的累计时间间隔超过600秒,则任务管理跟踪器失效 mapred.tasktracker.resourcecalculatorplugin 指定的一个用户访问资源信息的类实例 mapred.tasktracker.taskmemorymanager.monitoring-interval5000监控任务管理跟踪器任务内存使用率的时间间隔 mapred.tasktracker.tasks.sleeptime-before-sigkill 5000发出进程终止后,间隔5秒后发出进程消亡信号
mapred.map.tasks 2每个作业缺省的map任务数为2 mapred.reduce.tasks 1每个作业缺省的reduce任务数为1 mapreduce.tasktracker.outofband.heartbeat false 让在任务结束后发出一个额外的心跳信号 mapreduce.tasktracker.outofband.heartbeat.damper 1000000当额外心跳信号发出量太多时,则适当阻止
mapred.jobtracker.restart.recover false 充许任务管理器恢复时采用的方式 mapred.jobtracker.job.history.block.size 3145728作业历史文件块的大小为3M mapreduce.job.split.metainfo.maxsize 10000000分隔元信息文件的最大值是10M以下
mapred.jobtracker.taskScheduler org.apache.hadoop.mapred.JobQueueTaskScheduler设定任务的执行计划实现类 mapred.jobtracker.taskScheduler.maxRunningTasksPerJob 作业同时运行的任务数的最大值 mapred.map.max.attempts 4Map任务的重试次数 mapred.reduce.max.attempts 4Reduce任务的重试次数 mapred.reduce.parallel.copies 5在复制阶段时reduce并行传送的值。 mapreduce.reduce.shuffle.maxfetchfailures 10取map输出的最大重试次数 mapreduce.reduce.shuffle.connect.timeout 180000REDUCE任务连接任务管理器获得map输出时的总耗时是3分钟
mapreduce.reduce.shuffle.read.timeout 180000REDUCE任务等待map输出数据的总耗时是3分钟 mapred.task.timeout 600000如果任务无读无写时的时间耗时为10分钟,将被终止 mapred.tasktracker.map.tasks.maximum 2任管管理器可同时运行map任务数为2 mapred.tasktracker.reduce.tasks.maximum 2任管管理器可同时运行reduce任务数为2 mapred.jobtracker.completeuserjobs.maximum 100当用户的完成作业数达100个后,将其放入作业历史文件中 mapreduce.reduce.input.limit -1Reduce输入量的限制。 mapred.job.tracker.retiredjobs.cache.size 1000作业状态为已不在执行的保留在内存中的量为1000 mapred.job.tracker.jobhistory.lru.cache.size5作业历史文件装载到内存的数量 mapred.child.java.opts -Xmx200m启动task管理的子进程时的内存设置 mapred.child.env 子进程的参数设置 mapred.child.ulimit 虚拟机所需内存的设定。 mapred.cluster.map.memory.mb -1 mapred.cluster.reduce.memory.mb -1 mapred.cluster.max.map.memory.mb -1 mapred.cluster.max.reduce.memory.mb -1 mapred.job.map.memory.mb -1 mapred.job.reduce.memory.mb -1 mapred.child.tmp /tmp Mr任务信息的存放目录 mapred.inmem.merge.threshold 1000内存中的合并文件数设置 mapred.job.shuffle.merge.percent 0.66 mapred.job.shuffle.input.buffer.percent 0.7 mapred.job.reduce.input.buffer.percent 0 mapred.map.tasks.speculative.execution true Map任务的多实例并行运行标识 mapred.reduce.tasks.speculative.execution true Reduce任务的多实例并行运行标识 mapred.job.reuse.jvm.num.tasks1每虚拟机运行的任务数 mapred.min.split.size0Map的输入数据被分解的块数设置 mapred.jobtracker.maxtasks.per.job-1一个单独作业的任务数设置 mapred.submit.replication10提交作业文件的复制级别 mapred.tasktracker.dns.interfacedefault 任务管理跟踪器是否报告IP地址名的开关 mapred.tasktracker.dns.nameserverdefault 作业和任务管理跟踪器之间通讯方式采用的DNS服务的主机名或IP地址 tasktracker.http.threads40http服务器的工作线程数量 mapred.task.tracker.http.address0.0.0.0:50060任务管理跟踪器的http服务器的地址和端口 keep.failed.task.filesfalse 失败任务是否保存到文件中
mapred.output.compressfalse 作业的输出是否压缩 mapred.output.compression.typeRECORD 作业输出采用NONE, RECORD or BLOCK三种方式中一种压缩的写入到流式文件 mapred.output.compression.codecorg.apache.hadoop.io.compress.DefaultCodec压缩类的设置 mapred.compress.map.outputfalse Map的输出是否压缩 mapred.map.output.compression.codecorg.apache.hadoop.io.compress.DefaultCodecMap的输出压缩的实现类指定 map.sort.classorg.apache.hadoop.util.QuickSort 排序键的排序类指定 mapred.userlog.limit.kb0每个任务的用户日志文件大小 mapred.userlog.retain.hours24作业完成后的用户日志留存时间为24小时 mapred.user.jobconf.limit5242880Jobconf的大小为5M mapred.hosts 可与作业管理跟踪器连接的主机名 mapred.hosts.exclude 不可与作业管理跟踪器连接的主机名 mapred.heartbeats.in.second 100作业管理跟踪器的每秒中到达的心跳数量为100 mapred.max.tracker.blacklists 4任务管理跟踪器的黑名单列表的数量 mapred.jobtracker.blacklist.fault-timeout-window180任务管理跟踪器超时180分钟则訪任务将被重启 mapred.jobtracker.blacklist.fault-bucket-width 15 mapred.max.tracker.failures 4任务管理跟踪器的失败任务数设定 jobclient.output.filter FAILED 控制任务的用户日志输出到作业端时的过滤方式 mapred.job.tracker.persist.jobstatus.active false 是否持久化作业管理跟踪器的信息 mapred.job.tracker.persist.jobstatus.hours 0持久化作业管理跟踪器的信息的保存时间 mapred.job.tracker.persist.jobstatus.dir /jobtracker/jobsInfo作业管理跟踪器的信息存放目录 mapreduce.job.complete.cancel.delegation.tokenstrue 恢复时是否变更领牌 mapred.task.profile false 任务分析信息是否建设标志 mapred.task.profile.maps 0-2 设置map任务的分析范围 mapred.task.profile.reduces 0-2 设置reduce任务的分析范围 mapred.line.input.format.linespermap 1每次切分的行数设置 mapred.skip.attempts.to.start.skipping 2在跳转模式未被设定的情况下任务的重试次数 mapred.skip.map.auto.incr.proc.count true MapRunner在调用map功能后的增量处理方式设置 mapred.skip.reduce.auto.incr.proc.count true 在调用reduce功能后的增量处理方式设置 mapred.skip.out.dir 跳过记录的输出目录 mapred.skip.map.max.skip.records 0 mapred.skip.reduce.max.skip.groups 0 job.end.retry.attempts 0Hadoop偿试连接通知器的次数 job.end.retry.interval 30000通知偿试回应的间隔操作为30秒 hadoop.rpc.socket.factory.class.JobSubmissionProtocol 指定与作业跟踪管理器的通讯方式,缺省是采用rpc方式 mapred.task.cache.levels 2任务缓存级别设置 mapred.queue.names default分隔作业队例的分隔符设定 mapred.acls.enabled false 指定ACL访问控制列表 mapred.queue.default.state RUNNING定义队列的状态 mapred.job.queue.name default已提交作业的队列设定 mapreduce.job.acl-modify-job 指定可修改作业的ACL列表 mapreduce.job.acl-view-job 指定可浏临作业的ACL列表 mapred.tasktracker.indexcache.mb 10任务管理跟踪器的索引内存的最大容器 mapred.combine.recordsBeforeProgress 10000在聚合处理时的记录块数
mapred.merge.recordsBeforeProgress 10000在汇总处理时的记录块数 mapred.reduce.slowstart.completed.maps 0.05 mapred.task.tracker.task-controller org.apache.hadoop.mapred.DefaultTaskController任务管理器的设定 mapreduce.tasktracker.group 任务管理器的组成员设定 mapred.healthChecker.script.path 脚本的绝对路径指定,这些脚本是心跳服务的 mapred.healthChecker.interval 60000节点心跳信息的间隔 mapred.healthChecker.script.timeout 600000 mapred.healthChecker.script.args 参数列表
mapreduce.job.counters.limit 120作业计数器的最小值
页:
[1]