tianzhig 发表于 2016-12-10 10:45:22

初始HDFS(hadoop distributed file system)

初次接触HDFS(Hadoop Distributed File System),主动或者被动地了解一些相关知识,也有同事给我们分享过,但是大多是一些概念把我们唬住了,很难有个清晰的认识和进一步了解的前提,借此论坛的机会,整理一点,我想可以轻松愉快的快速认识一下HDFS。”





影片名称:HDFS分布式文件系统

上映时间:2004年X月,至今翻拍多版

主要演员:client、namenode、datanode

编剧导演:Doug Cutting等

发行方式:Open开源

发行机构:Apache

影片语言:Java

影片类型:科技教育动漫

影迷评分:7.9分/

相关影片:GFS、HBASE、MAPREDUCE、HIVE、PIG、ZOOKEEPER等

影片简介:HDFS是Hadoop生态系统的一员,意思如同名称分布式文件系统……

◆影片开始,都会列出主要演员(The Cast)





客户端:对HDFS的操作都要通过我,你们别指望越过我,其他人不会搭理你;

元数据节点:我是独一无二的,当然除了我的备胎(我要是死了,备胎就是我,等我复活以后,我就变成备胎了),这里的事情都要协调,看出来了吧,我是主角;

数据节点:我们,我们是存储数据用的,我们是群众演员,一般都是有很多的,我们可以死,但是也不能死太多;

◆正式故事(第一节),向HDFS里面写数据(Writing Data In HDFS Cluster)

○用户请求(Request From User)





○数据块和拷贝(Block And Replaction)





○切割文件成块(Divide File Into BLocks)





○询问元数据节点(Ask NameNode)





○元数据节点选用数据节点(NameNode Assigns DataNodes)





○客户端开始写数据(Client Starts Writing Data)





○通知元数据节点操作完成(Infrom NameNode When Done)







○全部数据块写完(When All Blocks Are Written)





○正式故事(上)扼要重述(Rcap)





◆正式故事(第二节),从HDFS中读取数据(Reading Data From HDFS Cluster)

○用户请求(Request From User)





○首先联系元数据节点(Contact NameNode First)





○下载数据(DownLoad Data)





◆正式故事(第三节),HDFS容错性能

○错误类型和检错(Types Of Faults And Their Detection)

错误一:节点错误





错误二:通讯错误





错误三:数据错误





检错一:节点错误





检错二:网络错误





检错三:数据错误







○处理数据读写错误(Handling Reading And Writing Failures)

处理写数据错误







处理读数据错误







○处理节点错误









◆正式故事(第四节),拷贝的位置策略(Replica Placement Strategy)





○机架和数据节点(Racks and DataNode)





○选择第一个拷贝位置(Selecting First Replica Location)





○剩下两个拷贝位置(Next Two Replica Location)





○后来的拷贝所放位置(Subsquent Replica Locations)








◆后记(Where to go From here?)





HDFS分布式文件系统介绍完了,是不是感觉像放电影一样,我想看完后,你对HDFS一定有一个大概认识,貌似也不是很困难,不过这只是个开始,我也是在网上找到这幅漫画的,分享给大家,希望可以让你对学习Hadoop提供一点信心吧,愉快的学习,我们知道公司和客户都在推进各个系统的云化工作,我想这些东西以后也是我们必备的知识吧。
页: [1]
查看完整版本: 初始HDFS(hadoop distributed file system)