自定义实现Hadoop Key-Value

shenzhang · 发表于 2016-12-9 06:00:33

　　自定义实现Value：
　　如果需要自定义一个一个Value类型，那么需要实现Hadoop预定义接口org.apache.hadoop.io.Writable。Writable包含两个重要的方法：readFields和write，主要用于数据的序列化和反序列化。对于Writable的子类的成员变量必须是Java的基本类型或者是其他实现了Writable接口的类型。如果是Java的基本类型则可以使用DataInput的相应方法进行成员变量的读写，例如：
　　int responseSize=in.readInt();
　　String userIP=in.readUTF();
　　如果是实现了Writable接口的类型可以使用该类型的write和readFields方法进行数据的读写，例如：
　　Textname=newText();
　　name.readFields(in);
　　注意事项：
　　（1）如果过实现接口Writable的自定义类型包含构造函数，一定需要书写参数为空的自定义函数（2）如果Hadoop应用采用了TextOutputFormat作为输出格式并且采用了自定义Key或者Value，因为TextOutputFormat采用value的toString方法进行最后结果的输出，因此在自定义Writable的时候需要根据需要实现一个有意义的toString方法（3）当Hadoop进行输入处理的时候，Hadoop一般会重复使用key或value对象，主要注意上一次读取的数据会不会对本次处理产生影响。
　　自定义实现Key:
　　作为HadoopKey，需要具备比较功能，以便hadoop进行分区和排序。因此，Key需要实现两个接口，一个是Writable接口；一个是WritableComparable接口。WritableComparable增加了一个compareTo方法，用来进行对象的比较。
　　注意事项：
　　一般情况下采用compareTo方法就能满足应用需求，但是该方法需要将二进制数据反序列化成对象，因此性能不是特别高。为此，Hadoop一般为每一种Writable类型提供一种RawComparator，用来进行二进制数据的比较。如果需要使用RawComparator，则首先需要继承WritableComparator并自定义实现其中的compare方法；然后，通过WritableComparator.define(IntWritable.class,newComparator())方法完成该类对应比较程序的注册。

　　自定义实现Value：
　　如果需要自定义一个一个Value类型，那么需要实现Hadoop预定义接口org.apache.hadoop.io.Writable。Writable包含两个重要的方法：readFields和write，主要用于数据的序列化和反序列化。对于Writable的子类的成员变量必须是Java的基本类型或者是其他实现了Writable接口的类型。如果是Java的基本类型则可以使用DataInput的相应方法进行成员变量的读写，例如：
　　int responseSize=in.readInt();
　　String userIP=in.readUTF();
　　如果是实现了Writable接口的类型可以使用该类型的write和readFields方法进行数据的读写，例如：
　　Textname=newText();
　　name.readFields(in);
　　注意事项：
　　（1）如果过实现接口Writable的自定义类型包含构造函数，一定需要书写参数为空的自定义函数（2）如果Hadoop应用采用了TextOutputFormat作为输出格式并且采用了自定义Key或者Value，因为TextOutputFormat采用value的toString方法进行最后结果的输出，因此在自定义Writable的时候需要根据需要实现一个有意义的toString方法（3）当Hadoop进行输入处理的时候，Hadoop一般会重复使用key或value对象，主要注意上一次读取的数据会不会对本次处理产生影响。
　　自定义实现Key:
　　作为HadoopKey，需要具备比较功能，以便hadoop进行分区和排序。因此，Key需要实现两个接口，一个是Writable接口；一个是WritableComparable接口。WritableComparable增加了一个compareTo方法，用来进行对象的比较。
　　注意事项：
　　一般情况下采用compareTo方法就能满足应用需求，但是该方法需要将二进制数据反序列化成对象，因此性能不是特别高。为此，Hadoop一般为每一种Writable类型提供一种RawComparator，用来进行二进制数据的比较。如果需要使用RawComparator，则首先需要继承WritableComparator并自定义实现其中的compare方法；然后，通过WritableComparator.define(IntWritable.class,newComparator())方法完成该类对应比较程序的注册。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] 自定义实现Hadoop Key-Value

浏览过的版块

扫码加入运维网微信交流群