设为首页 收藏本站
查看: 2689|回复: 0

[经验分享] kettle入门(三) 之kettle连接hadoop&hdfs图文详解

[复制链接]

尚未签到

发表于 2016-12-9 08:44:43 | 显示全部楼层 |阅读模式
目录(?)[-]


  • 引言
  • 准备工作

    • 首先
    • 其次

  • 试验运行

    • 首先配置工作
    • 然后开发脚本工作

  • 备注

1 引言:
  项目最近要引入大数据技术,使用其处理加工日上网话单数据,需要kettle把源系统的文本数据load到hadoop环境中
2 准备工作:
1 首先
  要了解支持hadoop的Kettle版本情况,由于kettle资料网上较少,所以最好去官网找,官网的url:
  http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version
  打开这个url 到页面最下面的底端,如下图:
DSC0000.jpg

  archive 下面的from PDI 4.3 、 from PDI 4.4 、 from PDI 5.0 即表示支持hadoop的pdi 版本。pdi即pentaho data integration 又称kettle。PDI 4.3 、  PDI 4.4 、 PDI 5.0 即是kettle 4.3 、4.4、 5.0 ,这个版本号 包括比其更高的版本(即kettle 5.0.X ,5.1,5.2也支持hadoop)。
2 其次
  不同的kettle版本支持的hadoop版本不一样,以5.1为例子,下面的链接是5.1的支持情况
  http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version

  下图为链接打开的页面的中间部分:
DSC0001.jpg

  determine the proper shim for hadoop Distro and version 大概意思是 为hadoop版本选择合适的套件。表格上面的一行:apache、cloudera、hortonworks、intel、mapr指的是发行方。点击 他们来选择你 想连接的hadoop的发行方 。上图 以apache hadoop为例:
  Version 指版hadoop版本号 ,shim 指kettle提供给该hadoop套件的名称,Download 里面的 included in 5.0,5.1 指kettle的5.0、5.1版本安装包里面已经有内置的插件,一句话来讲 就是kettle5.1及5.0版本已有插件提供支持apache hadoop版本0.20.x  。不需要额外下载。NS 是不支持的意思 图片下面也有解释。
DSC0002.jpg

  上图说明的是对 cloudera的 hadoop支持的情况 ,Download 里面 download的蓝色字体超链接的说明 是要除了下kettle的安装包外另外下载的 ,带 included in 5.0,5.1 说明 kettle 5.0,5.1版本的本身就支持(内置有插件)。
  
  由上面两图得到的结论是 kettle 5.1 支持 apache hadoop 0.20.x版本 及cloudera hadoop CDH4.0 到CDH5。
3  试验运行:
1 首先配置工作
  当前我用的hadoop 版本是hadoop-2.2.0-cdh5.0 所以用kettle 5.1 且其内置有hadoop插件。去kettle官网下载: DSC0003.jpg
  解压之后 就是:
DSC0004.jpg

  下载好之后,现在就需要做配置的工作了,配置的工作在kettle安装文件里面做:
  配置办法参考:http://wiki.pentaho.com/display/BAD/Hadoop
DSC0005.jpg

  进页面之后 先点击collapse 收缩所有的菜单树 如上图。   Configuring Pentaho for your Hadoop Distro and Version 意思是为hadoop 版本做配置 点击进去:页面的上面 就是上面说过的kettle对hadoop的支持情况。
  我们到页面的中间部分去,如下图:
DSC0006.jpg

  1 意思是 你想要连接的hadoop发行版 已经被kettle支持了,但是没有内置插件,需要下载,这种情况最好 看下:Install Hadoop Distribution Shim
  2 意思是你想连接的hadoop发行版 还有没有被kettle支持,可以自己填写相应的信息 要求pentaho 开发一个。
  还有1种情况 就是上面说的hadoop发行版 已经被kettle支持了 且有内置的插件。
  3 就是配置了。
  3.1 stop application 就是如果kettle在运行 先停掉他。
  3.2 打开安装文件夹 我们这边是kettle 所以就是spoon那个的文件路径:
DSC0007.jpg

  3.3 编辑 plugin.properties文件
  3.4 改一个配置值 下图画圈的地方
DSC0008.jpg

  改成 对应你hadoop的shim值 (上图的表格里面的shim) 我这边是cdh50:
DSC0009.jpg

  改之后保存:
DSC00010.jpg

  至此 配置工作做完。
2 然后开发脚本工作
  下面开始开发脚本 官方参考:http://wiki.pentaho.com/display/BAD/Loading+Data+into+HDFS
  打开 kettle 运行spoon.bat
  : DSC00011.jpg
  新建一个kjb文件 拖一个开始图元
DSC00012.jpg

  再拖一个 DSC00013.jpg
  hadoop copy files即是 load数据到 hdfs里面。
  copy files里面的配置:
DSC00014.jpg

DSC00015.jpg  意思是当前kjb脚本所在路径 在我这边文件夹是:

DSC00016.jpg

  目标文件 是 hdfs://ip:hdfs端口/路径
  填之前可以点击 DSC00017.jpg browse 按钮 测试
  如下图 :填好server 和port后  点击connect 如果没有报错 出现红框里面的hdfs://......... 就说明连接成功了(如下图)。
DSC00018.jpg

  注意只要连接成功,说明kettle对hadoop的配置就没有问题。
  可以运行脚本试试了:
DSC00019.jpg

  如上图,脚本运行成功。
  在hadoop home bin下面查看:
DSC00020.jpg 文件成功load.

  至此,kettle load文本数据到hdfs成功!
4 备注:
  所有的步骤都可以参考官网:
  http://wiki.pentaho.com/display/BAD/Hadoop
DSC00021.jpg

  上图 1 是配置 2 是加载数据到hadoop 集群 3 是加载数据到hdfs 还有其他到 hive 到hbase等。
  ps:写一段长的博客真累,感觉比干活还累

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-311685-1-1.html 上篇帖子: Hadoop YARN框架调研以及问题总结 下篇帖子: 影响Hadoop集群稳定性后续
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表