基于Hadoop构建对象存储系统(二)
归档文件的再归档1. 扫描归档文件列表,统计占用磁盘空间低于阈值的归档文件;
2. 根据归档文件大小配置参数,将统计所得归档文件分组;
3. 统计各分组归档文件涉及到的对象;
4. 将每个分组中的归档文件合并到一个归档文件;将归档文件中的有效对象数据合并到一个新的归档文件中;
5. 更新相关对象元数据信息表中的数据位置描述项;
6. 删除旧的归档文件;
图-8 归档文件的再归档
总结语
基于Hadoop实现类似Amazon S3的对象存储系统,有一定的先天优势,例如Hadoop的HDFS作为数据存储的容器,解决了数据冗余备份的问题;Hadoop的半结构化的存储系统HBase可以支撑MetaData的存储,同时解决了MetaData存储层的可靠性和可扩展性等问题。HDFS天生不能适合存储大量小文件的缺陷,可以使用MapReduce处理架构在后台提供对象归档管理功能(Hadoop已经有了HAV的功能,只是没有平台化),使得HDFS仍然存储自己喜欢的“大文件”。这种基于Hadoop实现的对象存储系统,并不能保证在现阶段达到和Amazon S3一样的服务效率,但随着Hadoop系统的不断完善(例如HDFS访问效率的提高,Append功能的支持等),相信也能有不俗的表现。
来自:http://blog.csdn.net/Cloudeep/archive/2009/08/05/4412958.aspx
页:
[1]