设为首页 收藏本站
查看: 845|回复: 0

[经验分享] Hadoop 基础知识

[复制链接]

尚未签到

发表于 2016-12-4 09:23:01 | 显示全部楼层 |阅读模式
什么是Hadoop?
面向大数据处理
擅长离线数据分析
分布式文件系统+计算框架(HDFS+MapReduce)
Hadoop不是数据库,Hbase才是数据库
Hadoop是一个快速进化的生态系统
Hadoop会使用在哪些行业? 电子商务,移动运营商
什么是大数据?
大数据是个相对概念,基于目前的软硬件水平,满足不了预期性能的的数据量,就被称为大数据。

Hadoop子项目家族
HbasePigHiveChukwa
MapReduceHDFSZoo Keeper
CoreAvro
Core:Hadoop的核心代码
MapReduce:Hadoop的分布式计算框架
HDFS:分布式文件系统
Pig:轻量级语言,系统自动转换成MapReduce程序语言,进行MapReduce工作,然后把结果返回给用户。它的作用是用户和MapReduce转换器这样一个组件。
Hive:查询MapReduce的SQL语言。
Hbase: 列式数据库,非关系型数据库, 面向数据分析
ZooKeeper: 负责服务器及进程之间的通信
Chukwa:数据集成工具。将各个数据源加载到Hadoop里面进行数据分析。
Hadoop的架构(Hadoop的后台进程)
Switch相当于网络交换机
Namenode
当用户跟Hadoop集群打交道时,Hadoop会首先访问Namenode,获得文件分布的信息,它是分布在哪些数据节点里面,
然后才跟数据节点打交道,将数据拿到。
1.是HDFS的守护程序,起到分布式文件系统的总控作用,它记录所有的元数据,比如
2.记录文件是如何分割成数据块的,以及这些数据块被存储在哪些节点。
3.对内存和I/O进行集中管理
4.是个单点,发生故障时将使集群崩溃。
Secondary Namenode(辅助名称节点)
主要是作为NameNode的后备,可以将NameNode的数据复制成一份副本,一旦NameNode瘫痪,可以使用Secondary NameNode
代替,使集群重新运行。但这种切换目前还无法自动切换。
1.监控HDFS状态的辅助后台程序
2.每个集群都有一个
3.与NameNode进行通讯,定期保存HDFS元数据快照
4当NameNode故障可以作为备用NameNode使用。
DataNode(数据节点)
每台服务器都运行一个
负责把HDFS数据块读写到本地文件系统
JobTracker
1.用于处理作业(用户提交代码)的后台程序
2.决定哪些文件参与处理,然后切割成task并分配节点。
3.监控task,重启失败的task
4.每个集群只有一个JobTracker,位于Master节点。

TaskTracker
1.位于slave节点,与datanode结合(代码与数据一起的原则)
2.管理各自节点的task(由jobtracker分配)
3.每个节点只有一个tasktracker,但一个tasktracker可以启动多个jvm,用户并行执行map或reduce任务
4.与jobtracker交互

Master与Slave
Master:运行Namenode,secondary,jobtracker程序的服务器。
Slave:运行Datanode,tasktracker的机器。
Master不是唯一的。

关于Google的技术问题
1.大量的网页怎么存储?
保存在内存中,为了防止断电导致数据丢失,会采取冗余的方式保存多个地方。
2.Google如何快速搜索? 搜索算法
倒排索引
Google会先对网页内容进行分词,比如我爱北京广场会被分为
单词ID | 单词 | 倒排列表(DocID;TF)
1.我,(1,1)
2.爱
3.北京
4.广场
然后同一行内保存这个词在哪些网页中存在,以及便宜量。比如第一个网页,偏移量为1.
假如搜索我,google先找到我这个单词,单词上已建立索引,根据倒排列表可以迅速找到哪些网页存在这个词。
3.Page_Rank(网页价值)计算问题
这是Google最核心的算法,用于给每个网页价值评分。
根据页面的链接个数来决定页面的价值,链接的越多,指向此页面的网页越多,则价值越大。
另外还根据页面的page rank来决定指向的价值,比如国务院的网站指向的连接,就价值比普通的个人网站指向
价值高很多。
1->12->13->14->1
1->22->23->24->2
1->32->33->34->3
1->42->43->44->4
G=aS+(1-a)1/nU
S是矩阵
a是0-1的一个数,比如0.85
U是全部元素都是1的矩阵
n是网页的个数,例子中是4

数据分析者面临的问题
1.数据日趋庞大,无论是入库还是查询,都会出现性能瓶颈。
2.用户的应用和分析结果呈整合趋势,对实时性和相应时间要求越来越高。
3.使用的模型越来越复杂,计算量指数级上升。
数据分析者期待的解决方案
1.完美解决性能瓶颈,在可见未来不容易出现新瓶颈。
2.过去所拥有的技能可以平稳过渡。
3.转移平台的成本多高?平台软硬件成本,再开发成本,技能培养成本,维护成本。
Why not Hadoop?
Java?
难以驾驭?
数据集成困难?
Hadoop vs Oracle

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.iyunv.com/thread-309370-1-1.html 上篇帖子: 未来的hadoop 下篇帖子: Hadoop学习十二:Hadoop-Hdfs Storage源码
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表