运行Hadoop作业时一处常见错误以及解决方法

alonli 发表于 2018-10-30 11:54:02

1. 问题描述
　　当用户编写完Hadoop程序时，准备运行时，经常会抛出以下异常：

　　[
INFO] – Task>　　Error: java.lang.ClassNotFoundException: com.sca.commons.ScaException
　　at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
　　at java.security.AccessController.doPrivileged(Native Method)
　　at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
　　at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
　　at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
　　at java.lang.ClassLoader.loadClass(ClassLoader.java:247)
　　at java.lang.Class.forName0(Native Method)
　　at java.lang.Class.forName(Class.java:247)
　　at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:819)
　　at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:864)
　　at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.getMapperClass(MultithreadedMapper.java:95)
　　at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.run(MultithreadedMapper.java:127)
　　at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
　　at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
　　at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
　　at java.security.AccessController.doPrivileged(Native Method)
　　at javax.security.auth.Subject.doAs(Subject.java:396)
　　at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083)
　　at org.apache.hadoop.mapred.Child.main(Child.java:249)
　　大家一看异常“java.lang.ClassNotFoundException”就会知道原因是找不到java类。
　　经个人总结，这通常是由于以下几种原因造成的：
　　（1）你编写了一个java lib，封装成了jar，然后再写了一个Hadoop程序，调用这个jar完成mapper和reducer的编写
　　（2）你编写了一个Hadoop程序，期间调用了一个第三方java lib。
　　之后，你将自己的jar包或者第三方java包分发到各个TaskTracker的HADOOP_HOME目录下，运行你的JAVA程序，报了以上错误。
2. 解决方法
　　（1）在运行脚本中添加classpath.
　　在$HADOOP_HOME/conf/hadoop_env.sh 或者$HADOOP_HOME/bin/hadoop-config.sh中添加：
　　export HADOOP_CLASSPATH=$HADOOP_HOME/my_jars
　　然后将你自己的jar包和第三方jar包分发到各个TaskTracker的HADOOP_CLASSPATH目录下（别忘了所有
TaskTracker上的hadoop_env.sh和hadoop-config.sh均按以上方法添加HADOOP_CLASSPATH环境变量）
　　【注】hadoop_env.sh和hadoop-config.sh是所有hadoop运行脚本（start-all.sh, start-dfs.sh等）一定会引用的配置脚本，可以将一些最基本的环境变量或者配置参数加到这两个文件中。
　　（2）使用“-libjars“参数
　　这种方式是本人推荐的方法，但是支持这个功能，需要按照如下方式编写Hadoop程序：
public class MyHadoopJob extends Configured implements Tool {　　

　　
public static classMapClass
　　

　　
   extends Mapper {
　　

　　
   //your mapper
　　

　　
}
　　

　　
public static classReduce
　　

　　
   extendsReducer {
　　

　　
   //your reducer
　　

　　
}
　　

　　
//设定并读取应用程序相关的，自己定义的一些参数
　　

　　
public int run(String[] args)throws Exception {
　　

　　
   if(args.length < 2) {
　　

　　
      printUsage();
　　

　　
   return 2;
　　

　　
}
　　

　　
Job job = new Job(getConf());
　　

　　
…......
　　

　　
}
　　

　　
//真正的main函数
　　

　　
public static void main(String[] args) throwsException{
　　

　　
   intres = ToolRunner.run(new Configuration(), new SleepJob(), args);
　　

　　
   System.exit(res);
　　

　　
}
　　

　　
}
　　运行作业：
#run_myjob.sh　　
bin/hadoop jar myjob.jar MyHadoopJob \
　　
-D mapred.job.name=MyHadoopJob \
　　
-D mapred.map.tasks=24 \
　　
-D mapred.mreduce.tasks=12 \
　　
-D mapred.input.dir=/test/input1,test/input2 \
　　
-D mapred.output.dir=/test/output \
　　
-libjars myjob.jar,third-party.jar
　　
-my1 5 \
　　
-my2 china
　　运行./run_myjob.sh
　　其中 “-libjars“指定本地两个jar文件，Hadoop自动会把这两个文件分发到各个TaskTracker的临时工作目录下，用完后自动删除。
3. 解决方案比较
　　第一种方法过于笨拙，每次都要人工地将jar包分发到各个TaskTracker上，如果集群很大，非常耗时；第二种方法利用了Hadoop内部机
制进行jar包分发，非常方便。实际上，在Hadoop example中，除了WordCount例子外，其他所有例子均采用了方案2的设计方法。
　　转载原文地址：http://dongxicheng.org/mapreduce/run-hadoop-job-problems/

页: [1]

运维网's Archiver

运行Hadoop作业时一处常见错误以及解决方法