设为首页 收藏本站
查看: 618|回复: 0

[经验分享] Hadoop之MapReduce命令

[复制链接]

尚未签到

发表于 2016-12-6 08:18:59 | 显示全部楼层 |阅读模式
概述


  所有的Hadoop命令都通过bin/mapred脚本调用。在没有任何参数的情况下,运行mapred脚本将打印该命令描述。
  使用:mapred [--config confdir] COMMAND

[hadoop@hadoopcluster78 bin]$ mapred
Usage: mapred [--config confdir] COMMAND
where COMMAND is one of:
pipes                run a Pipes job
job                  manipulate MapReduce jobs
queue                get information regarding JobQueues
classpath            prints the class path needed for running
mapreduce subcommands
historyserver        run job history servers as a standalone daemon
distcp <srcurl> <desturl> copy file or directories recursively
archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
hsadmin              job history server admin interface
Most commands print help when invoked w/o parameters.
用户命令
  对于Hadoop集群用户很有用的命令:

archive
  查看:Hadoop之命令指南
  


classpath
  打印需要得到Hadoop的jar和所需要的lib包路径,hdfs,yarn脚本都有这个命令。
  使用: mapred classpath
  




distcp
  递归的拷贝文件或者目录,查看该篇中的示例:Hadoop之命令指南。
  




job
  通过job命令和MapReduce任务交互。
  使用:mapred job | [GENERIC_OPTIONS] | [-submit <job-file>] | [-status <job-id>] | [-counter <job-id> <group-name> <counter-name>] | [-kill <job-id>] | [-events <job-id> <from-event-#> <#-of-events>] | [-history [all] <jobOutputDir>] | [-list [all]]
| [-kill-task <task-id>] | [-fail-task <task-id>] | [-set-priority <job-id> <priority>]

  

参数选项
描述


-submitjob-file


提交一个job.



-statusjob-id


打印map任务和reduce任务完成百分比和所有JOB的计数器。



-counterjob-id group-name counter-name


打印计数器的值。





-killjob-id


根据job-id杀掉指定job.



-eventsjob-id from-event-# #-of-events


打印给力访问内jobtracker接受到的事件细节。(使用方法见示例)



-history [all]jobOutputDir


打印JOB的细节,失败和杀掉原因的细节。更多的关于一个作业的细节比如:成功的任务和每个任务尝试等信息可以通过指定[all]选项查看。



-list [all]

打印当前正在运行的JOB,如果加了all,则打印所有的JOB。



-kill-tasktask-id


Kill任务,杀掉的任务不记录失败重试的数量。



-fail-tasktask-id


Fail任务,杀掉的任务不记录失败重试的数量。

默认任务的尝试次数是4次超过四次则不尝试。那么如果使用fail-task命令fail同一个任务四次,这个任务将不会继续尝试,而且会导致整个JOB失败。





-set-priorityjob-id priority


改变JOB的优先级。允许的优先级有:VERY_HIGH, HIGH, NORMAL, LOW, VERY_LOW




  示例:

[hadoop@hadoopcluster78 bin]$ mapred job -events job_1437364567082_0109 0 100
15/08/13 15:10:53 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Task completion events for job_1437364567082_0109
Number of events (from 0) are: 1
SUCCEEDED attempt_1437364567082_0109_m_000016_0 http://hadoopcluster83:13562/tasklog?plaintext=true&attemptid=attempt_1437364567082_0109_m_000016_0
[hadoop@hadoopcluster78 bin]$ mapred job -kill-task attempt_1437364567082_0111_m_000000_4
15/08/13 15:51:25 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Killed task attempt_1437364567082_0111_m_000000_4



pipes
  运行pipes JOB。关于pipe,查看:Hadoop pipes编程

  Hadoop pipes允许C++程序员编写mapreduce程序。它允许用户混用C++和Java的RecordReader, Mapper, Partitioner,Rducer和RecordWriter等五个组件。

  Usage: mapred pipes [-conf <path>] [-jobconf <key=value>, <key=value>, ...] [-input <path>] [-output <path>] [-jar <jar file>] [-inputformat <class>] [-map <class>] [-partitioner <class>] [-reduce <class>] [-writer <class>] [-program <executable>] [-reduces
<num>]
  


参数选项
描述


-confpath

Job的配置文件路径。


-jobconfkey=value,key=value,

增加/重载 JOB的配置。


-inputpath

输入路径


-outputpath

输出路径


-jarjar
file


JAR文件名


-inputformatclass

InputFormat类


-mapclass

Java
Map 类




-partitionerclass

Java
Partitioner


-reduceclass

Java
Reduce 类


-writerclass

Java
RecordWriter


-programexecutable

可执行的URI


-reducesnum

reduce的数量



  

  




queue
  该命令用于交互和查看Job Queue信息。
  使用: mapred queue [-list] | [-info <job-queue-name> [-showJobs]] | [-showacls]

  

参数选项
描述


-list

获取在系统配置的Job Queues列表。已经Job Queues的调度信息。



-infojob-queue-name[-showJobs]

显示一个指定Job Queue的信息和它的调度信息。如果使用-showJobs选项,则显示当前正在运行的JOB列表。




-showacls

显示队列名和允许当前用户对队列的相关操作。这个命令打印的命令是当前用户可以访问的。





示例:




[hadoop@hadoopcluster78 bin]$ mapred queue -list
15/08/13 14:25:30 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default
Queue State : running
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 47.5
[hadoop@hadoopcluster78 bin]$ mapred queue -info default
15/08/13 14:28:45 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default
Queue State : running
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 72.5
[hadoop@hadoopcluster78 bin]$ mapred queue -info default -showJobs
15/08/13 14:29:08 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
======================
Queue Name : default
Queue State : running
Scheduling Info : Capacity: 100.0, MaximumCapacity: 100.0, CurrentCapacity: 72.5
Total jobs:1
JobId  State  StartTime  UserName  Queue  Priority  UsedContainers  RsvdContainers  UsedMem  RsvdMem  NeededMem  AM info
job_1437364567082_0107  RUNNING  1439447102615  root  default  NORMAL  28  0  29696M  0M  29696M http://hadoopcluster79:8088/proxy/application_1437364567082_0107/
[hadoop@hadoopcluster78 bin]$ mapred queue -showacls
15/08/13 14:31:44 INFO client.RMProxy: Connecting to ResourceManager at hadoopcluster79/10.0.1.79:8032
Queue acls for user : hadoop
Queue Operations
=====================
root ADMINISTER_QUEUE,SUBMIT_APPLICATIONS
default ADMINISTER_QUEUE,SUBMIT_APPLICATIONS


管理员命令
  以下是对hadoop集群超级管理员很有用的命令。

historyserver
  启动JobHistoryServer服务。
  使用: mapred historyserver
  也可以使用sbin/mr-jobhistory-daemon.sh start|stop historyserver来启动/停止JobHistoryServer。



hsadmin
  运行hsadmin去执行JobHistoryServer管理命令。
  Usage: mapred hsadmin [-refreshUserToGroupsMappings] | [-refreshSuperUserGroupsConfiguration] | [-refreshAdminAcls] | [-refreshLoadedJobCache] | [-refreshLogRetentionSettings] | [-refreshJobRetentionSettings] | [-getGroups [username]] | [-help [cmd]]


参数配置
描述


-refreshUserToGroupsMappings

刷新用户-组的对应关系。



-refreshSuperUserGroupsConfiguration

刷新超级用户代理组映射



-refreshAdminAcls

刷新JobHistoryServer管理的ACL



-refreshLoadedJobCache

刷新JobHistoryServer加载JOB的缓存



-refreshJobRetentionSettings

刷新Job histroy旗舰,job cleaner被设置。



-refreshLogRetentionSettings

刷新日志保留周期和日志保留的检查间隔



-getGroups [username]

获取这个用户名属于哪个组



-help [cmd]

帮助

示例:
[hadoop@hadoopcluster78 bin]$ mapred hsadmin -getGroups hadoop
hadoop : clustergroup

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-310207-1-1.html 上篇帖子: hadoop求最大值方法 下篇帖子: nutch与hadoop
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表