设为首页 收藏本站
查看: 644|回复: 0

[经验分享] 配置hadoop和nutch

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2016-12-5 10:15:32 | 显示全部楼层 |阅读模式
              这个东西在linux下面配置,写文件权限是最开始可能会遇到的问题,主要应该把默认的tmp目录配置到可写目录里面;之后可能就会遇到socket访问类似的错误,这主要是因为fs.default.name配置参数的问题,使用hdfs://localhost类似的串代替就好了;再有的问题就是网络访问授权的问题,使用ssh-keygen使得可以不用密码就可以正常运行#sshlocalhost就好,这是针对单机配置,如果是cluster,就需要配置namenode到datanode的访问权限,照着单机的类似步骤配置即可,完了使用sshhost验证一下。一个很好的命令jps很好用,这是java1.5之后的版本的才用的,用来查看java虚拟机里面在跑着那些程序。比如使用bin/start-all.sh运行了hadoop后使用jps命令检查一下是不是所有的node和tracker都起来了。

               在配置nutch非分布式的时候,注意恢复hadoop-site.xml到hadoop-default.xml的默认值,即都使用本地文件存储。简单的方法就是重命名hadoop-site.xml,全部使用hadoop-default.xml的默认值。所以不要直接改动hadoop-default.xml里面的配置,如果改动太多的话,一个最笨的方法就是直接拷贝一份hadoop-default.xml命名为hadoop-site.xml,然后修改相应的配置。


调试过程中可能会有修改了hadoop-site.xml或者nutch-site.xml后配置不生效的问题,这个主要可能的原因就是别的地方有一份老的hadoo-site.xml或者nutch-site.xml配置,比如jar包里面;比如build目录里面;对于分布式部署,比如job包里面。

hadoop注意如上的一些地方,基本上就可以跑起来,接下来就是nutch了。参考文献有http://wiki.apache.org/nutch/Nutch0.9-Hadoop0.10-Tutorial?highlight=%28hadoop%29%7C%28tutorial%29。不过开始经常会遇到在depth0即停止不抓的情况,以前遇到过几回了,但是没有记录下来,现在有麻烦了。解决过程中……

更多信息请查看 java进阶网 http://www.javady.com

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-309921-1-1.html 上篇帖子: hadoop使用过程的问题 下篇帖子: 单机安装hadoop环境
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表