`
小网客
  • 浏览: 1218481 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop之RandomTextWriter说明

 
阅读更多

需求:

需要mock一批数据,基于数据做测试或者分析,RandomTextWriter可以满足需求,不过MRv1和MRv2的参数不是很一致。

详述:

MRv1:

<config>  
    <property>
      <name>test.randomtextwrite.min_words_key</name>
      <value>5</value>
    </property>
    <property>
      <name>test.randomtextwrite.max_words_key</name>
      <value>10</value>
    </property>
    <property>
      <name>test.randomtextwrite.min_words_value</name>
      <value>20</value>
    </property>
    <property>
      <name>test.randomtextwrite.max_words_value</name>
      <value>100</value>
    </property>
    <property>
      <name>test.randomtextwrite.total_bytes</name>
      <value>1099511627776</value>
    </property>
</config>

 在执行的时候要通过-D传入,还有一些其他的参数:

test.randomtextwrite.maps_per_host
test.randomtextwrite.bytes_per_map

MRv2:

<config>  
    <property>
      <name>mapreduce.randomtextwriter.minwordskey</name>
      <value>5</value>
    </property>
    <property>
      <name>mapreduce.randomtextwriter.maxwordskey</name>
      <value>10</value>
    </property>
    <property>
      <name>mapreduce.randomtextwriter.minwordsvalue</name>
      <value>20</value>
    </property>
    <property>
      <name>mapreduce.randomtextwriter.maxwordsvalue</name>
      <value>100</value>
    </property>
    <property>
      <name>mapreduce.randomtextwriter.totalbytes</name>
      <value>1099511627776</value>
    </property>
</config>

 在执行的时候要通过-D传入,还有一些其他的参数:

mapreduce.randomtextwriter.bytespermap
mapreduce.randomtextwriter.mapsperhost

 

 

 

 

0
0
分享到:
评论

相关推荐

    Hadoop课程设计说明书(1).doc

    设计一个基于Hadoop的商品推荐系统,商品推荐引擎大致可以分为5部分,分别是:计算用户的购买向量、计算物品的相似度矩阵、计算推荐度及相关处理、数据导入数据库和对于整个项目的全部作业控制。通过MapReduce程序将...

    hadoopAPI说明文档

    hadoopAPI说明文档,

    HADOOP 2.6.0 配置说明 V1

    网上的 Hadoop 资料大都以 2.6 之前的版本为基础,在 2.6.0 上都无法正常运行。 经过仔细阅读随机文档,同时参考大量网上资料,整理出了 Hadoop 2.6.0 的安装配置步骤。 在一台 8GB 内存的PC机上,建立3个VM虚拟机...

    hadoop安装部署说明文档

    包括hadoop在Linux下集群安装和配置,以及windows下使用的配置说明,包括windows下面所需要的bin文件,包含了hadoop核心配置文件的各种属性说明

    hadoop2.7.3 hadoop.dll

    在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....

    hadoop1.2.1部署说明

    3台虚拟机部署hadoop1.2.1详细说明

    apache hadoop1.0.3配置说明 doc

    本文档用于说明hadoop1.0.3安装配置的步骤 以及其中需要注意的事项

    Hadoop之HDFS思维导图

    Hadoop之HDFS思维导图

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...

    hadoop安装配置说明-加词云.pdf

    HADOOP 安装配置实践手册 0 Linux 基础 1 Hadoop 安装配置 2 HDFS 编程 3 MYSQL 4 HIVE 5 Sqoop 6 Storm 7 Kafka 8 RDS 9 词云

    Hadoop之Hbase从入门到精通

    Hadoop之Hbase从入门到精通,入门级教程,很使用

    Hadoop之Hbase从入门到精通 .doc

    Hadoop之Hbase从入门到精通 .doc

    hadoop编译过程详细说明

    hadoop编译过程详细说明,可按操作在Linux下将32位编译成64位

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...

    Hadoop下载 hadoop-3.3.3.tar.gz

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...

    hadoop-api中文说明文档

    hadoop-api中文说明文档

    Hadoop权威指南 中文版

    本书从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hado叩这一高性能处理海量数据集的理想工具。全书共14章,3个附录,涉及的主题包括:haddoop简介:mapreduce简介:hadoop分布式文件系统;hadoop的i...

    基于centos的大数据hadoop集群搭建说明文档

    适用于初学者徒手搭建hadoop集群,文档细致,完全傻瓜模式,非常好用

    hadoop3.3.3-winutils

    操作系统环境差异说明 因为模拟linux环境,所以在linux原生环境中就不需要他了 在windows环境中需要配置 如何配置: 配置到运行环境当前目录下的/bin目录下 如果是eclipse开发,就配置到项目根目录下/bin/下即可 在...

    hadoop最新版本3.1.1全量jar包

    hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...

Global site tag (gtag.js) - Google Analytics