设为首页 收藏本站
查看: 701|回复: 0

[经验分享] Hadoop的实时分析之路

[复制链接]

尚未签到

发表于 2016-12-4 11:13:37 | 显示全部楼层 |阅读模式
随着大数据[注]时代的到来,Hadoop声名鹊起,这个开源的分布式处理架构似乎可以处理大数据的任何问题。但长期以来,包括即席查询在内的实时分析一直是Hadoop的痛点。
Hadoop可以处理大规模数据集,包括结构化数据、非结构化数据和半结构化数据,但Hadoop的是按照批量处理系统来设计的,这也就限制了它的反应速度。
数字广告公司Rubicon Project负责技术运营的副总裁And Jan Gelin表示,在线广告经纪人非常需要快速的分析。
Rubicon Project为广告客户提供平台,通过该平台,广告客户在竞标前能够看到网站访问者的信息,这样就能保证广告只投放到了有兴趣的用户那里。Gelin表示,整个流程包含很多分析,这些分析必须在不足1秒钟的时间内全部完成。
广告竞标平台的搭建,很大程度上依赖于Hadoop。但Gelin表示,把实时分析技术和Hadoop结合起来才是关键。Rubicon公司用Storm复杂事件处理引擎来捕获和快速分析广告竞标流程中的大量数据。之后Storm将这些数据发送到MapR Technologies公司的Hadoop集群中。Hadoop集群主要用于将数据转化到更传统的分析应用,比如商务智能报表。即使在这一阶段,转化过程完成之后,也有很多信息加载到Greenplum分析型数据库中。
Hadoop的实时分析
Gelin表示,公司每天生产的绝对数据量当然要靠Hadoop的处理能力;但对于数据分析,你不得不承认Hadoop是一个批量处理系统。很多运行在Hadoop上的其他技术才是实时分析工具。
有些Hadoop供应商竭力回避Hadoop的实时分析障碍。Cloudera在四月份发布了它的Impala查询引擎,声称可以在Hadoop数据上运行交互式SQL查询语言,实现近实时分析。EMC和VMWare合资成立的新公司Pivotal致力于数据管理和分析,它在三个月后发布了相似的查询引擎Hawq。甚至专注于捕捉机器产生的数据流的Splunk也加入了进来,它推出的Hadoop数据分析工具Hunk在十月末发行。
十月份发布的Hadoop 2.0向应用程序开放了Hadoop系统。Forrester调查公司的分析师Mike Gualtieri认为,随着这些新工具的发布和研发,Hadoop终会解决实时分析的难题。其中一个重要的因素在于,供应商和Hadoop用户都迫切希望在分析应用中实现实时或近实时分析技术。
Gualtieri表示:“Hadoop本质上是一个批处理环境。然而,由于其分布式结构设计,和很多应用案例不得不把数据放到Hadoop上,很多供应商和最终用户都希望在Hadoop上添加实时分析或即席查询。”
发展障碍
Gualtieri认为阻碍Hadoop实现实时分析的主要有两点。首先,大部分的新的Hadoop查询引擎运行速度没能像主流关系型数据库中的查询那样快。在Impala和Hawq这样的工具中,最终用户可以用SQL语言写查询指令,在Hadoop集群执行的时候,这些指令要翻译成MapReduce语言。整个过程是很慢的,远逊于直接在关系型数据库中运行SQL查询。
其次,与关系型数据库相比,Hadoop目前还是一个只读的系统。数据一旦写入Hadoop分布式文件系统(HDFS),用户很难插入、删除或修改存储的数据。
虽然存在着这些困难,但Gualtieri认为这些是可以克服的。Hadoop 2就包含了把数据附加到HDFS文件的能力。
Gartner的分析师Nick Heudecker认为,虽然新查询引擎不支持实时数据分析功能,但它更平民化,没有技术背景的用户也可以访问和分析存储在Hadoop中的数据。因为MapReduce开发人员不需要再写查询指令,所以与运行Hadoop分析相关的时间和成本就大大减少了。
IT服务供应商OpenSource的咨询顾问Patricia Gorla表示,组织需要仔细考虑是否要部署这样的工具。Hadoop的可扩展性和承受能力是很诱人,但它也可能将业务引向歧途。组织需要了解哪些是最适合Hadoop的,而不是让Hadoop去适合一个它本不属于的系统架构。要记住,“Hadoop只擅长它所擅长的东西” 。
转自网界网:http://bigdata.cnw.com.cn/bigdata-newinformation/htm2013/20131226_288618.shtml

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-309504-1-1.html 上篇帖子: Hbase+Hadoop环境搭建 下篇帖子: hadoop 集群安装及验证
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表