jxp2002 发表于 2016-12-9 10:39:51

使用Hadoop har归档历史文件(小文件)

应用场景
  我们的hdfs中保存大量小文件(当然不产生小文件是最佳实践),这样会把namenode的namespace搞的很大。namespace保存着hdfs文件的inode信息,文件越多需要的namenode内存越大,但内存毕竟是有限的(这个是目前hadoop的硬伤)。
  下面图片展示了,har文档的结构。har文件是通过mapreduce生成的,job结束后源文件不会删除。
  


 
har命令说明


[*]  参数“-p”为src path的前缀
[*]  src可以写多个path

archive -archiveName NAME -p <parent path> <src>* <dest>

生成HAR文件


[*]单个src文件夹:

hadoop archive -archiveName 419.har -p /fc/src/20120116/ 419 /user/heipark


[*]多个src文件夹

hadoop archive -archiveName combine.har -p /fc/src/20120116/ 419 512 334 /user/heipark


[*]不指定src path,直接归档parent path(本例为“
/fc/src/20120116/ ”, “
/user/heipark ”仍然为输出path),这招是从源码里翻出来的,嘿嘿。

hadoop archive -archiveName combine.har -p /fc/src/20120116//user/heipark
  



[*] 使用模式匹配的src path,下面的示例归档10、11、12月文件夹的数据。这招也是从源码发出来的。

hadoop archive -archiveName combine.har -p /fc/src/2011 1 /user/heipark

 

查看HAR文件

hadoop fs -ls har:////user/heipark/20120108_15.har/
#输出如下:
drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2025
drw-r--r-- - hdfs hadoop 0 2012-01-17 16:30 /user/heipark/20120108_15.har/2029




#使用hdfs文件系统查看har文件
hadoop fs -ls /user/yue.zhang/20120108_15.har/
#输出如下:
-rw-r--r--   2 hdfs hadoop          0 2012-01-17 16:30 /user/heipark/20120108_15.har/_SUCCESS
-rw-r--r--   5 hdfs hadoop       2411 2012-01-17 16:30 /user/heipark/20120108_15.har/_index
-rw-r--r--   5 hdfs hadoop         24 2012-01-17 16:30 /user/heipark/20120108_15.har/_masterindex
-rw-r--r--   2 hdfs hadoop   191963 2012-01-17 16:30 /user/heipark/20120108_15.har/part-0

Har Java API (HarFileSystem )

public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
conf.set("fs.default.name", "hdfs://xxx.xxx.xxx.xxx:9000");
HarFileSystem fs = new HarFileSystem();
fs.initialize(new URI("har:///user/heipark/20120108_15.har"), conf);
FileStatus[] listStatus = fs.listStatus(new Path("sub_dir"));
for (FileStatus fileStatus : listStatus) {
System.out.println(fileStatus.getPath().toString());
}
}
  参考文章:
  http://denqiang.com/?m=20111114
  http://c.hocobo.net/2010/08/05/har/
  -- heipark
页: [1]
查看完整版本: 使用Hadoop har归档历史文件(小文件)