设为首页 收藏本站
查看: 646|回复: 0

[经验分享] Hadoop工具生态系统指南

[复制链接]

尚未签到

发表于 2016-12-5 08:52:07 | 显示全部楼层 |阅读模式
Hadoop工具生态系统指南
 
   DSC0000.jpg
  Hadoop工具生态系统生长迅速,以下是IT经理网整理的最新Hadoop工具资源,供IT经理日常参考,欢迎读者来信或留言补充。
  Hadoop
  Apache hadoop项目负责开发可靠的、可扩展的分布式计算开源软件。
  网址:hadoop.apache.org
  HDFS
  分布式文件系统提供高速的应用数据访问。
  网址:hadoop.apache.org/hdfs/
  MapReduce
  在计算机集群上进行大数据分布式处理的软件框架。
  亚马逊Elastic MapReduce
  亚马逊Elastic MapReduce是一种web服务,能让企业、研究人员、数据分析师和开发者低成本快速处理海量数据。该服务是托管于亚马逊弹性云(EC2)和亚马逊S3存储云上的web大规模基础架构上的Hadoop框架。
  网址:aws.amazon.com/elasticmapreduce/
  Cloudera Hadoop发行版(CDH)
  Cloudera的Hadoop发行版(CDH)为基于Hadoop的数据管理平台树立了新的标杆。
  网址:cloudera.com/hadoop
  ZooKeeper
  针对分布式应用的高性能协调服务。ZooKeeper为配置信息、命名提供集中化管理服务,支持分布式同步,并提供群组服务。
  网址:hadoop.apache.org/zookeeper/
  HBase
  可扩展的分布式数据库,支持大表(big table)的结构化数据存储。
  网址:hbase.apache.org
  Avro
  数据序列化系统。与ThriftProtocolbuffers类似。
  avro.apache.org
  Sqoop
  Sqoop(SQL-to-Hadoop),是命令行工具,有以下功能:


    • ● 将单独的表或者整个数据库导入HDFS文件
    • ● 通用Java库支持与导入数据的互动
    • ● 支持将SQL数据库直接导入你的Hive数据仓库

  网址:cloudera.com/downloads/sqoop/
  Flume
  Flume是一个分布式高可靠的大数据传输服务。
  网址:archive.cloudera.com/cdh/3/flume/
  Hive
  Hive是基于Hadoop的数据仓库基础架构,提供的工具能进行简便的数据汇总、ad-hoc查询,以及对存储在Hadoop文件中的大数据集的分析。Hive提供一种简单易用的查询语言——Hive QL,该语言基于SQL,这意味着那些对SQL熟悉的用户可以像使用SQL数据库一样查询大数据。Hive QL还云寻传统的map/reduce程序员插入他们自己的mappers和reducers,进行更为复杂的分析。
  网址:hive.apache.org
  Pig
  Pig是一种高阶数据流语言和并行计算的执行框架。Apache Pig是一个大数据集分析平台,提供了一种表达数据分析程序的高阶语言,以及评估这些程序的基础架构。Pig程序的最大优点是其架构能为底层并行化进行调整,从而能处理非常大规模的数据集。
  网址:pig.apache.org
  Oozie
  Oozie 是一个开源的工作流和协作服务引擎,为管理Apache hadoop数据处理任务提供工作流/协作服务。Oozie 是可扩展的、可伸缩的面向数据的服务,运行在Hadoop 平台上,协调Hadoop上运行的不同任务(包括HDFS,Pig和MapReduce)。
  Oozie 包括一个离线的Hadoop处理的工作流解决方案,以及一个查询处理 API。
  网址:yahoo.github.com/oozie
  Cascading
  Cascading是一个查询API和查询计划器,被用于定义和执行Hadoop集群上运行的复杂、可自由扩展、可容错的数据处理工作流。
  网址:cascading.org
  Cascalog
  Cascalog一种能使在Hadoop上使用Clojure处理数据变得简单直观的工具。Cascalog综合了两大顶尖技术:Clojure和Hadoop,同时让Datalog焕发青春。Cascalog的特点是高性能、灵活和鲁棒。
  网址:github.com/nathanmarz/cascalog
  HUE
  Hue是运营和开发Hadoop应用的图形化用户界面。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,对于单独的用户来说不需要额外的安装。
  网址:archive.cloudera.com/cdh3/hue   更多信息:Cloudera blog
  Chukwa
  Chukwa是面向大型分布式系统的数据采集系统。Chukwa基于Hadoop HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和容错性。Chukwa还提供一个灵活而强大的工具包,用于显示、监控和分析分析结果,更好地利用所收集的数据。
  网址:incubator.apache.org/chukwa/
  Mahout
  一种可扩展的机器学习和数挖掘库。
  网址:mahout.apache.org

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-309765-1-1.html 上篇帖子: Hadoop的现在和未来 下篇帖子: Hadoop集群默认配置(转)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表