dsqzhaoyue 发表于 2016-12-10 06:22:11

Hadoop之RandomTextWriter说明

  需求:
  需要mock一批数据,基于数据做测试或者分析,RandomTextWriter可以满足需求,不过MRv1和MRv2的参数不是很一致。
  详述:
  MRv1:

<config>
<property>
<name>test.randomtextwrite.min_words_key</name>
<value>5</value>
</property>
<property>
<name>test.randomtextwrite.max_words_key</name>
<value>10</value>
</property>
<property>
<name>test.randomtextwrite.min_words_value</name>
<value>20</value>
</property>
<property>
<name>test.randomtextwrite.max_words_value</name>
<value>100</value>
</property>
<property>
<name>test.randomtextwrite.total_bytes</name>
<value>1099511627776</value>
</property>
</config>
  在执行的时候要通过-D传入,还有一些其他的参数:

test.randomtextwrite.maps_per_host
test.randomtextwrite.bytes_per_map
  MRv2:

<config>
<property>
<name>mapreduce.randomtextwriter.minwordskey</name>
<value>5</value>
</property>
<property>
<name>mapreduce.randomtextwriter.maxwordskey</name>
<value>10</value>
</property>
<property>
<name>mapreduce.randomtextwriter.minwordsvalue</name>
<value>20</value>
</property>
<property>
<name>mapreduce.randomtextwriter.maxwordsvalue</name>
<value>100</value>
</property>
<property>
<name>mapreduce.randomtextwriter.totalbytes</name>
<value>1099511627776</value>
</property>
</config>
  在执行的时候要通过-D传入,还有一些其他的参数:

mapreduce.randomtextwriter.bytespermap
mapreduce.randomtextwriter.mapsperhost
页: [1]
查看完整版本: Hadoop之RandomTextWriter说明