设为首页 收藏本站
查看: 994|回复: 0

[经验分享] Hadoop 和DBMS 的互补性

[复制链接]

尚未签到

发表于 2016-12-8 11:25:32 | 显示全部楼层 |阅读模式
  随着Microsoft 也加入Hadoop 阵营,Hadoop 已经完全变成了DBMS 的好朋友了 , 2年之前的SIGMOD组织提出的“A Comparison of Approaches to Large-Scale Data Analysis”引发了关于并行数据库和MapReduce模型的讨论, 双方唇枪舌剑之后发现两个系统根本就是各有所长, DBMS 目前有些处理好的领域和商业支持,Hadoop 也有自己的优势和使用案例.
  就如前一篇TDWI 所说的3个V 问题,新一代Hadoop MapReduce 主要解决的是数据容量和多种类型的数据(结构化,半结构化,非结构化). 而传统的MPP DBMS 解决的主要还是速度,低延迟,实时性的问题.
DBMSHadoop
低延迟,一般响应时间为秒高延迟,一般响应时间最少为分钟
较高的吞吐(同一时间执行sql数)可以提交很多任务,但不一定快速执行.
处理的数据量有限制(目前为P)可以处理大量的数据(从10p到1E)
硬件有特殊需要,不能随时添加硬件可随时添加,增加计算能力
假设机器是随时可用的,不对失败做处理默认机器故障时正常的,可以容忍机器失效并用其它迅速机器替代
数据库模式过渡优化对数据格式没有限制
数据满足完整性(外键)用户程序需要自己验证完整性
必须提前知道使用模式并进行优化
或者根据使用一段时间之后的情况进行特定优化
面对未知的使用模式,常规使用模式可以做一定程度的优化.
需要添加额外的优化计算(索引,分区等)大部分情况不用额外优化
CPU,内存,磁盘,网络利用率较为高效资源利用率不算高效,人为优化需要较多技巧,目前没有DBMS 优化技术成熟
  

 
储存能力有限, 磁盘不能随意扩展储存能力极高,随时可以按需扩展
磁盘比较昂贵,经常访问的数据可使用高端SSD廉价磁盘,随意保存多份数据防止丢失
线型扩展能力一般, 一般到几百台机器有瓶颈极高的线型扩展能力,目前yahoo 的为4000台,下一代Hadoop 目标6000 – 10000台
不具备开放性,必须数据库厂商提供功能高端开放性,大多数组织参与合作
分析能力需要默认提供可以自己编写UDF 函数,随时扩展功能.
不太适合用来保存过多的历史数据可以保存任意多的历史数据,随时可以访问.
不能处理半结构化或非结构化的数据可以处理XML,图片,音频视频等任意格式数据
有厂商在数据库内提供MapReduce功能
(Aster Data 和Greenplum)
有厂商希望在Hadoop 内添加MPP DBMS 的特性降低延迟提高吞吐能力(Hadapt , MapR)
可以随时装载最新数据并查询和分析一般都是批量处理 , 需要特定的技术才能进行实时或叫准实时的计算
实施费用较为昂贵免费开源
人员培训较为简单,拥有成熟的人才市场需要IT 人员拥有较高的技能,而且培训较少.
  目前DBMS 还是在其关系型领域拥有绝对的竞争力, 适合多种不同的功能需要.
  Hadoop 目前还是主要以廉价的解决方案,活跃的社区,储存能力和非结构化数据的处理见长.
  目前有名的数据仓库提供商都开始在自己的产品线里面提供直接的Hadoop 集成,帮助用户选择合适的技术做合适的事情.
  一些比较成功的数据仓库使用者都会同时使用DBMS 和Hadoop , 比如Ebay, Walmart, Yahoo, LinkedIn等
  一些特殊的行业也会完全使用Hadoop 做其数据仓库的完整解决方案. 比如Facebook , Twitter .
  Microsoft 加入Hadoop 估计也就是提供一下Windows 的便捷开发的然后骗骗用户“我们有大规模计算的能力了”,估计真要在Windows 服务器上跑Hadoop 效果可想而知.
  参考资料
  争论之后的A Comparison of Approaches to Large-Scale Data Analysis
  http://database.cs.brown.edu/projects/mapreduce-vs-dbms/
  转自:http://www.gemini5201314.net/bi/hadoop-%e5%92%8cdbms-%e7%9a%84%e4%ba%92%e8%a1%a5%e6%80%a7.html#more-1305

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-311470-1-1.html 上篇帖子: 利用Ant构建Hadoop高效开发环境 下篇帖子: 自定义实现Hadoop Key-Value
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表