需求:
需要mock一批数据,基于数据做测试或者分析,RandomTextWriter可以满足需求,不过MRv1和MRv2的参数不是很一致。
详述:
MRv1:
<config> <property> <name>test.randomtextwrite.min_words_key</name> <value>5</value> </property> <property> <name>test.randomtextwrite.max_words_key</name> <value>10</value> </property> <property> <name>test.randomtextwrite.min_words_value</name> <value>20</value> </property> <property> <name>test.randomtextwrite.max_words_value</name> <value>100</value> </property> <property> <name>test.randomtextwrite.total_bytes</name> <value>1099511627776</value> </property> </config>
在执行的时候要通过-D传入,还有一些其他的参数:
test.randomtextwrite.maps_per_host test.randomtextwrite.bytes_per_map
MRv2:
<config> <property> <name>mapreduce.randomtextwriter.minwordskey</name> <value>5</value> </property> <property> <name>mapreduce.randomtextwriter.maxwordskey</name> <value>10</value> </property> <property> <name>mapreduce.randomtextwriter.minwordsvalue</name> <value>20</value> </property> <property> <name>mapreduce.randomtextwriter.maxwordsvalue</name> <value>100</value> </property> <property> <name>mapreduce.randomtextwriter.totalbytes</name> <value>1099511627776</value> </property> </config>
在执行的时候要通过-D传入,还有一些其他的参数:
mapreduce.randomtextwriter.bytespermap mapreduce.randomtextwriter.mapsperhost
相关推荐
设计一个基于Hadoop的商品推荐系统,商品推荐引擎大致可以分为5部分,分别是:计算用户的购买向量、计算物品的相似度矩阵、计算推荐度及相关处理、数据导入数据库和对于整个项目的全部作业控制。通过MapReduce程序将...
hadoopAPI说明文档,
网上的 Hadoop 资料大都以 2.6 之前的版本为基础,在 2.6.0 上都无法正常运行。 经过仔细阅读随机文档,同时参考大量网上资料,整理出了 Hadoop 2.6.0 的安装配置步骤。 在一台 8GB 内存的PC机上,建立3个VM虚拟机...
包括hadoop在Linux下集群安装和配置,以及windows下使用的配置说明,包括windows下面所需要的bin文件,包含了hadoop核心配置文件的各种属性说明
在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....
3台虚拟机部署hadoop1.2.1详细说明
本文档用于说明hadoop1.0.3安装配置的步骤 以及其中需要注意的事项
Hadoop之HDFS思维导图
《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...
HADOOP 安装配置实践手册 0 Linux 基础 1 Hadoop 安装配置 2 HDFS 编程 3 MYSQL 4 HIVE 5 Sqoop 6 Storm 7 Kafka 8 RDS 9 词云
Hadoop之Hbase从入门到精通,入门级教程,很使用
Hadoop之Hbase从入门到精通 .doc
hadoop编译过程详细说明,可按操作在Linux下将32位编译成64位
Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...
hadoop-api中文说明文档
本书从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hado叩这一高性能处理海量数据集的理想工具。全书共14章,3个附录,涉及的主题包括:haddoop简介:mapreduce简介:hadoop分布式文件系统;hadoop的i...
适用于初学者徒手搭建hadoop集群,文档细致,完全傻瓜模式,非常好用
操作系统环境差异说明 因为模拟linux环境,所以在linux原生环境中就不需要他了 在windows环境中需要配置 如何配置: 配置到运行环境当前目录下的/bin目录下 如果是eclipse开发,就配置到项目根目录下/bin/下即可 在...
hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...