xy123321 发表于 2017-12-17 17:32:54

Hadoop自定义类型处理手机上网日志

package mapreduce;  

  
import java.io.DataInput;
  
import java.io.DataOutput;
  
import java.io.IOException;
  

  
import org.apache.hadoop.conf.Configuration;
  
import org.apache.hadoop.fs.Path;
  
import org.apache.hadoop.io.LongWritable;
  
import org.apache.hadoop.io.Text;
  
import org.apache.hadoop.io.Writable;
  
import org.apache.hadoop.mapreduce.Job;
  
import org.apache.hadoop.mapreduce.Mapper;
  
import org.apache.hadoop.mapreduce.Reducer;
  
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
  
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
  
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
  
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
  
import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;
  


  
public>  
   static final String INPUT_PATH = "hdfs://chaoren:9000/wlan";//wlan是个文件夹,日志文件放在/wlan目录下
  
   static final String OUT_PATH = "hdfs://chaoren:9000/out";
  

  
   public static void main(String[] args) throws Exception {
  
         final Job job = new Job(new Configuration(),
  
               KpiApp.class.getSimpleName());
  
         // 1.1 指定输入文件路径
  
         FileInputFormat.setInputPaths(job, INPUT_PATH);
  
         // 指定哪个类用来格式化输入文件
  
         job.setInputFormatClass(TextInputFormat.class);
  

  
         // 1.2指定自定义的Mapper类
  
         job.setMapperClass(MyMapper.class);
  
         // 指定输出<k2,v2>的类型
  
         job.setMapOutputKeyClass(Text.class);
  
         job.setMapOutputValueClass(KpiWritable.class);
  

  
         // 1.3 指定分区类
  
         job.setPartitionerClass(HashPartitioner.class);
  
         job.setNumReduceTasks(1);
  

  
         // 1.4 TODO 排序、分区
  

  
         // 1.5 TODO (可选)归约
  

  
         // 2.2 指定自定义的reduce类
  
         job.setReducerClass(MyReducer.class);
  
         // 指定输出<k3,v3>的类型
  
         job.setOutputKeyClass(Text.class);
  
         job.setOutputValueClass(KpiWritable.class);
  

  
         // 2.3 指定输出到哪里
  
         FileOutputFormat.setOutputPath(job, new Path(OUT_PATH));
  
         // 设定输出文件的格式化类
  
         job.setOutputFormatClass(TextOutputFormat.class);
  

  
         // 把代码提交给JobTracker执行
  
         job.waitForCompletion(true);
  
   }
  


  
   static>  
         protected void map(
  
               LongWritable key,
  
               Text value,
  
               org.apache.hadoop.mapreduce.Mapper<LongWritable, Text, Text, KpiWritable>.Context context)
  
               throws IOException, InterruptedException {
  
             final String[] splited = value.toString().split("\t");
  
             final String msisdn = splited;
  
             final Text k2 = new Text(msisdn);
  
             final KpiWritable v2 = new KpiWritable(splited, splited,
  
                     splited, splited);
  
             context.write(k2, v2);
  
         };
  
   }
  


  
   static>  
             Reducer<Text, KpiWritable, Text, KpiWritable> {
  
         /**
  
          * @param k2
  
          *            表示整个文件中不同的手机号码
  
          * @param v2s
  
          *            表示该手机号在不同时段的流量的集合
  
          */
  
         protected void reduce(
  
               Text k2,
  
               java.lang.Iterable<KpiWritable> v2s,
  
               org.apache.hadoop.mapreduce.Reducer<Text, KpiWritable, Text, KpiWritable>.Context context)
  
               throws IOException, InterruptedException {
  
             long upPackNum = 0L;
  
             long downPackNum = 0L;
  
             long upPayLoad = 0L;
  
             long downPayLoad = 0L;
  

  
             for (KpiWritable kpiWritable : v2s) {
  
               upPackNum += kpiWritable.upPackNum;
  
               downPackNum += kpiWritable.downPackNum;
  
               upPayLoad += kpiWritable.upPayLoad;
  
               downPayLoad += kpiWritable.downPayLoad;
  
             }
  

  
             final KpiWritable v3 = new KpiWritable(upPackNum + "", downPackNum
  
                     + "", upPayLoad + "", downPayLoad + "");
  
             context.write(k2, v3);
  
         };
  
   }
  
}
  


  
>  
   long upPackNum;
  
   long downPackNum;
  
   long upPayLoad;
  
   long downPayLoad;
  

  
   public KpiWritable() {
  
   }
  

  
   public KpiWritable(String upPackNum, String downPackNum, String upPayLoad,
  
             String downPayLoad) {
  
         this.upPackNum = Long.parseLong(upPackNum);
  
         this.downPackNum = Long.parseLong(downPackNum);
  
         this.upPayLoad = Long.parseLong(upPayLoad);
  
         this.downPayLoad = Long.parseLong(downPayLoad);
  
   }
  

  
   public void readFields(DataInput in) throws IOException {
  
         this.upPackNum = in.readLong();
  
         this.downPackNum = in.readLong();
  
         this.upPayLoad = in.readLong();
  
         this.downPayLoad = in.readLong();
  
   }
  

  
   public void write(DataOutput out) throws IOException {
  
         out.writeLong(upPackNum);
  
         out.writeLong(downPackNum);
  
         out.writeLong(upPayLoad);
  
         out.writeLong(downPayLoad);
  
   }
  

  
   @Override
  
   public String toString() {
  
         return upPackNum + "\t" + downPackNum + "\t" + upPayLoad + "\t"
  
               + downPayLoad;
  
   }
  
}
页: [1]
查看完整版本: Hadoop自定义类型处理手机上网日志