设为首页 收藏本站
查看: 415|回复: 0

[经验分享] Hadoop权威指南摘抄(初识Hadoop)

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2016-12-4 09:58:43 | 显示全部楼层 |阅读模式
初识Hadoop
古代,人们用牛来拉重物,当一头牛拉不动一根圆木时,他们不曾想过培育更大更壮的牛。同样,
我们也不需要尝试开发超级计算机,而应该结合使用更多计算机。
--格蕾斯.霍珀
数据的存储与分析
大数据时代,磁盘存储容量快速增加的同时,其访问速度--磁盘数据读取速度缺未能与时俱进。
1990年,一个1370MB的磁盘,传输速度为4.4MB/S,因此读取整个磁盘需要5分钟,20年后,1TB的磁盘逐渐
普及,其数据传输速度约为100MB/S,因此读取整个磁盘的数据要约两个半小时。
假如我们拥有100块磁盘,每个磁盘存储1%的数据,并行读取,那么不到两分钟就读取所有数据。
仅使用磁盘容量的1%似乎很浪费,但我们可以存储100个数据集,每个数据集1TB,实现共享磁盘访问。
尽管如此,实现多个磁盘的并行读写,还有更多的问题要解决:
1.硬件故障,一旦使用多个硬件,其中任一硬件发生故障的概率非常高,常见办法是进行备份,发生
故障后使用另一副本。例如RAID就是按照此原理实现。另外Hadoop的文件系统HDFS也是一类,不过
它采用的方法稍微不同。详见后文
2.大多数的数据分析任务需要以某种方式结合大部分的数据共同完成分析任务,即从一个磁盘读取的
数据可能需要和从99个磁盘中读取的数据结合使用,各种分布式系统允许结合多个来源的数据并实现
分析,但保证其正确性是一个非常大的挑战。Hadoop的MapReduce提出一个编程模型,该模型将上述
问题进行抽象,并转换为一个数据集的计算(键/值对组成)。
简而言之,Hadoop提供了一个可靠的共享存储和分析系统。HDFS实现存储,而MapReduce实现分析处理。
纵然Hadoop还有其他功能,但这两部分是它的核心。

关系型数据库管理系统的对比
我们为什么不能使用数据库来对大量磁盘上大规模的数据进行批量分析?为什么要需要MapReduce?
答案来自磁盘的发展趋势:寻址时间的提高远远慢于传输速率的提高,寻址就是将磁头移动到特定
磁盘位置进行读写的过程。它是导致磁盘延迟的主要原因,而传输速率取决于磁盘的带宽。
如果数据的访问模式中包含大量的磁盘寻址,那么读取大量数据集所花的时间势必会更长(相比流式数据读取模式),
流式读取主要取决于传输速率。另一方面,如果数据库系统只更新一小部分记录,传统的B树更有优势。
但数据库系统更新大部分数据时,B数的效率比MapReduce低的多。
在很多情况下,可以将MapReduce视为关系型数据库管理系统的补充。MapReduce比较适合以批处理的方式
处理需要分析整个或大部分数据集的问题,尤其是即席查询。RDBMS适用于"点查询"和更新,数据集被索引
后,数据库系统能够提供低延迟数据检索和快速的少量数据更新。MapReduce适合一次写入,多次读取数据
的应用,而关系型数据库更适合持续更新的数据集。
MapReduce和关系型数据库之间的另一个区别是在于它们所操作的数据集的结构化程度。
结构化数据:xml或数据库表
半格式化: 虽然可能有格式,但经常被忽略,只能对数据结构一般指导。如电子表格,各个单元格组成,但
每个单元格自身可保存任何形式的数据。
半结构化数据:没有任何内部结构。比如纯文本或图像数据。
MapReduce对非结构化或半结构化数据非常有效,因为在处理数据时才对数据进行解释。换句话说,MapReduce
输入的键值并不是数据固有的属性,而是由分析数据的人员来选择的。
关系型数据往往是规范的,以保持其数据完整不冗余。但规范化给MapReduce带来了问题,它是记录的读取
称为异地操作,而MapReduce的核心之一就是,它可以进行高速的流式读写操作。
但是在不久的将来,关系型数据库系统和MapReduce之间的差异可能变得模糊,关系型数据库都开始吸收
MapReduce的一些思路(入Aster DATA和GreePlum的数据库),另一方面,基于MapReduce的高级查询语言
(Pig,HIVE)使MapReduce的系统更接近传统的数据库编程方式。

MapReduce的设计目标是服务于那些只需数分钟或数小时即可完成的作业,并且运行于内部通过高速
网路连接的单一数据中心内,并且该数据中心内的计算机需要可靠的,可定制的硬件组成。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-309413-1-1.html 上篇帖子: hadoop复习 1搭建 下篇帖子: Hadoop Combiner 操作
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表