buhong 发表于 2016-12-7 10:59:11

基于Hadoop构建对象存储系统(二)

归档文件的再归档
1.       扫描归档文件列表,统计占用磁盘空间低于阈值的归档文件;
2.       根据归档文件大小配置参数,将统计所得归档文件分组;
3.       统计各分组归档文件涉及到的对象;
4.       将每个分组中的归档文件合并到一个归档文件;将归档文件中的有效对象数据合并到一个新的归档文件中;
5.       更新相关对象元数据信息表中的数据位置描述项;
6.       删除旧的归档文件;
 
 
图-8 归档文件的再归档
 
总结语
基于Hadoop实现类似Amazon S3的对象存储系统,有一定的先天优势,例如Hadoop的HDFS作为数据存储的容器,解决了数据冗余备份的问题;Hadoop的半结构化的存储系统HBase可以支撑MetaData的存储,同时解决了MetaData存储层的可靠性和可扩展性等问题。HDFS天生不能适合存储大量小文件的缺陷,可以使用MapReduce处理架构在后台提供对象归档管理功能(Hadoop已经有了HAV的功能,只是没有平台化),使得HDFS仍然存储自己喜欢的“大文件”。这种基于Hadoop实现的对象存储系统,并不能保证在现阶段达到和Amazon S3一样的服务效率,但随着Hadoop系统的不断完善(例如HDFS访问效率的提高,Append功能的支持等),相信也能有不俗的表现。
 
来自:http://blog.csdn.net/Cloudeep/archive/2009/08/05/4412958.aspx
页: [1]
查看完整版本: 基于Hadoop构建对象存储系统(二)