基于Hadoop构建对象存储系统（二）

buhong 发表于 2016-12-7 10:59:11

归档文件的再归档
1.       扫描归档文件列表，统计占用磁盘空间低于阈值的归档文件；
2.       根据归档文件大小配置参数，将统计所得归档文件分组；
3.       统计各分组归档文件涉及到的对象；
4.       将每个分组中的归档文件合并到一个归档文件；将归档文件中的有效对象数据合并到一个新的归档文件中；
5.       更新相关对象元数据信息表中的数据位置描述项；
6.       删除旧的归档文件；

图-8 归档文件的再归档

总结语
基于Hadoop实现类似Amazon S3的对象存储系统，有一定的先天优势，例如Hadoop的HDFS作为数据存储的容器，解决了数据冗余备份的问题；Hadoop的半结构化的存储系统HBase可以支撑MetaData的存储，同时解决了MetaData存储层的可靠性和可扩展性等问题。HDFS天生不能适合存储大量小文件的缺陷，可以使用MapReduce处理架构在后台提供对象归档管理功能（Hadoop已经有了HAV的功能，只是没有平台化），使得HDFS仍然存储自己喜欢的“大文件”。这种基于Hadoop实现的对象存储系统，并不能保证在现阶段达到和Amazon S3一样的服务效率，但随着Hadoop系统的不断完善（例如HDFS访问效率的提高，Append功能的支持等），相信也能有不俗的表现。

来自：http://blog.csdn.net/Cloudeep/archive/2009/08/05/4412958.aspx

页: [1]

运维网's Archiver

基于Hadoop构建对象存储系统（二）