hadoop cluster配好了
下班回来有开始投入。进一步验证了,nutch运行在hadoop分布式之上时,使用的配置文件是build目录下面的conf,够折腾的。还有就是不要想着使用telnet去验证redhad企业版linux是否连通,因为默认情况下telnet是被关闭的。把配置文件里面的所有hostname改成ip地址,运行,一切ok。抓了depth5的,完了后用luke看的时候发现内容好像太少,只有一个document,看抓取输出的log有很多timeout:java.net.SocketTimeoutException:Accept timed outatjava.net.PlainSocketImpl.socketAccept(Native Method)atjava.net.PlainSocketImpl.accept(PlainSocketImpl.java:384)atjava.net.ServerSocket.implAccept(ServerSocket.java:453)atjava.net.ServerSocket.accept(ServerSocket.java:421)atorg.mortbay.util.ThreadedServer.acceptSocket(ThreadedServer.java:432)atorg.mortbay.util.ThreadedServer$Acceptor.run(ThreadedServer.java:631)可能是本子跑两个虚拟机太费劲了,导致页面都没有抓下来;还有就好多读配置文件IO异常:DEBUG conf.Configuration -java.io.IOException: config()
atorg.apache.hadoop.conf.Configuration.<init>(Configuration.java:157)atorg.apache.hadoop.mapred.JobConf.<init>(JobConf.java:158)atorg.apache.hadoop.mapred.TaskTracker.localizeJob(TaskTracker.java:669)atorg.apache.hadoop.mapred.TaskTracker.startNewTask(TaskTracker.java:1306)atorg.apache.hadoop.mapred.TaskTracker.offerService(TaskTracker.java:946)atorg.apache.hadoop.mapred.TaskTracker.run(TaskTracker.java:1343)atorg.apache.hadoop.mapred.TaskTracker.main(TaskTracker.java:2352)需要进一步分析。
不过总算是成了,庆祝……
更多信息请查看 java进阶网 http://www.javady.com
页:
[1]