初始HDFS(hadoop distributed file system)

tianzhig 发表于 2016-12-10 10:45:22

初次接触HDFS（Hadoop Distributed File System），主动或者被动地了解一些相关知识，也有同事给我们分享过，但是大多是一些概念把我们唬住了，很难有个清晰的认识和进一步了解的前提，借此论坛的机会，整理一点，我想可以轻松愉快的快速认识一下HDFS。”

影片名称：HDFS分布式文件系统

上映时间：2004年X月，至今翻拍多版

主要演员：client、namenode、datanode

编剧导演：Doug Cutting等

发行方式：Open开源

发行机构：Apache

影片语言：Java

影片类型：科技教育动漫

影迷评分：7.9分/

相关影片：GFS、HBASE、MAPREDUCE、HIVE、PIG、ZOOKEEPER等

影片简介：HDFS是Hadoop生态系统的一员，意思如同名称分布式文件系统……

◆影片开始，都会列出主要演员（The Cast）

客户端：对HDFS的操作都要通过我，你们别指望越过我，其他人不会搭理你；

元数据节点：我是独一无二的，当然除了我的备胎（我要是死了，备胎就是我，等我复活以后，我就变成备胎了），这里的事情都要协调，看出来了吧，我是主角；

数据节点：我们，我们是存储数据用的，我们是群众演员，一般都是有很多的，我们可以死，但是也不能死太多；

◆正式故事（第一节），向HDFS里面写数据（Writing Data In HDFS Cluster）

○用户请求（Request From User）

○数据块和拷贝（Block And Replaction）

○切割文件成块（Divide File Into BLocks）

○询问元数据节点（Ask NameNode）

○元数据节点选用数据节点（NameNode Assigns DataNodes）

○客户端开始写数据（Client Starts Writing Data）

○通知元数据节点操作完成（Infrom NameNode When Done）

○全部数据块写完（When All Blocks Are Written）

○正式故事（上）扼要重述（Rcap）

◆正式故事（第二节），从HDFS中读取数据（Reading Data From HDFS Cluster）

○用户请求（Request From User）

○首先联系元数据节点（Contact NameNode First）

○下载数据（DownLoad Data）

◆正式故事（第三节），HDFS容错性能

○错误类型和检错（Types Of Faults And Their Detection）

错误一：节点错误

错误二：通讯错误

错误三：数据错误

检错一：节点错误

检错二：网络错误

检错三：数据错误

○处理数据读写错误（Handling Reading And Writing Failures）

处理写数据错误

处理读数据错误

○处理节点错误

◆正式故事（第四节），拷贝的位置策略（Replica Placement Strategy）

○机架和数据节点(Racks and DataNode)

○选择第一个拷贝位置（Selecting First Replica Location）

○剩下两个拷贝位置（Next Two Replica Location）

○后来的拷贝所放位置（Subsquent Replica Locations）

◆后记（Where to go From here?）

HDFS分布式文件系统介绍完了，是不是感觉像放电影一样，我想看完后，你对HDFS一定有一个大概认识，貌似也不是很困难，不过这只是个开始，我也是在网上找到这幅漫画的，分享给大家，希望可以让你对学习Hadoop提供一点信心吧，愉快的学习，我们知道公司和客户都在推进各个系统的云化工作，我想这些东西以后也是我们必备的知识吧。

页: [1]

运维网's Archiver

初始HDFS(hadoop distributed file system)