第一步:数据准备要准备2份数据 一份key-value形式的,一份非key-value的形式
key-value准备,写了个py脚本:
import random import string a='abcdefghijklmnopqrstuvwxyz' alist=list(a) blist=range(0,10) f=open('testdata.txt','wb') flag=True j=0 while flag: astr=''.join(str(i) for i in random.sample(alist,5)) bstr=''.join(str(i) for i in random.sample(blist,5)) #num j 决定生成数据的行数 if j==20000000 : flag=False f.write("%s\t%s\n"%(astr,bstr)) j+=1
将数据导入HDFS
hadoop fs -put testdata.txt /test/input/
另一份数据有hadoop-exmaple.jar里面的randomwriter生成
cd /usr/lib/hadoop/
hadoop jar hadoop-exmaple.jar randomwriter /test/input1/
第二步:执行测试
MRReliabilityTest:
hadoop jar hadoop-test.jar MRReliabilityTest -libjars hadoop-examples.jar
loadgen:
Usage: [-m <maps>] [-r <reduces>]
[-keepmap <percent>] [-keepred <percent>]
[-indir <path>] [-outdir <path]
[-inFormat[Indirect] <InputFormat>] [-outFormat <OutputFormat>]
[-outKey <WritableComparable>] [-outValue <Writable>]
可以根据情况设置参数
hadoop jar hadoop-test.jar loadgen -m 6 -r 3 -indir /test/input/ -outdir /test/output/
mapredtest:
Usage: TestMapRed <range> <counts>
hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar mapredtest 2 10
testarrayfile:
Usage: TestArrayFile [-count N] [-nocreate] [-nocheck] file
hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar testarrayfile -count 4 /test/input/testdata.txt
testsequencefile:
Usage: SequenceFile [-count N] [-seed #] [-check] [-compressType <NONE|RECORD|BLOCK>] -codec <compressionCodec> [[-rwonly] | {[-megabytes M] [-factor F] [-nocreate] [-fast] [-merge]}] file
hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar testsequencefile -count 4 -check True -fast True /test/input/testdata.txt
testsetfile:
Usage: TestSetFile [-count N] [-nocreate] [-nocheck] [-compress type] file
hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar testsetfile -count 4 /test/input/testdata.txt
threadedmapbench:
hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar threadedmapbench
testfilesystem:
Usage: TestFileSystem -files N -megaBytes M [-noread] [-nowrite] [-noseek] [-fastcheck]
hadoop jar hadoop-test-1.2.0.1.3.0.0-107.jar -file 1 -megaBytes 1000
testmapredsort:
sortvalidate [-m <maps>] [-r <reduces>] [-deep] -sortInput <sort-input-dir> -sortOutput <sort-output-dir>
hadoop jar hadoop-test.jar -m 10 -r 5 -sortInput /test/input/ -sortOutpur /test/output
testbigmapoutput:
BigMapOutput -input <input-dir> -output <output-dir> [-create <filesize in MB>]hadoop jar hadoop-test.jar testbigmapoutput -input /test/input1/ -output /test/output1/
TestDFSIO基准测试HDFS
测试顺序应该是先写测试后读测试
Usage: TestDFSIO -read | -write | -clean [-nrFiles N] [-fileSize MB] [-resFile resultFileName] [-bufferSize Bytes]
写测试:
使用10个map任务写10个文件,每个500m。
hadoop jar $HADOOP_HOME/hadoop-test-1.2.0.1.3.0.0-107.jar TestDFSIO -write -nrFiles 10 -fileSize 1000 /tmp/TestDFSIO_log.txt
在运行的最后,结果被写入控制台并记录到路径/tmp/TestDFSIO_log.txt。
数据默认写入 /benchmarks/TestDFSIO目录下
读测试:
hadoop jar $HADOOP_HOME/hadoop-test-1.2.0.1.3.0.0-107.jar TestDFSIO -read-nrFiles 10 -fileSize 1000 /tmp/TestDFSIO_log.txt
清除测试数据:
hadoop jar $HADOOP_HOME/hadoop-test-1.2.0.1.3.0.0-107.jar TestDFSIO -clean
namenode 基准测试:
12个mapper和6个reducer来创建1000个文件
hadoop jar hadoop-test.jar nnbench -operation create_write -maps 12 -reduces 6
-blockSize 1 -bytesToWrite 0 -numberOfFiles 1000 -replicationFactorPerFile 3
-readFileAfterOpen true -baseDir /benchmarks/NNBench-`hostname -s`
mapreduce 基准测试:
mrbench会多次重复执行一个小作业,用于检查在机群上小作业的运行是否可重复以及运行是否高效
运行一个小作业50次
hadoop jar hadoop-test.jar mrbench -numRuns 50
testipc和tectrpc:
hadoop jar hadoop-test.jar testipc
hadoop jar hadoop-test.jar testrpc
PS:命令参数选择和设计可以根据硬件环境的设定
一些错误解决办法:
目的文件夹已存在:删除目标文件夹,再重跑相关命令
java heapsize不足:调高相应参数,或者跑任务之前参数设置多点maptask和reducetask
相关推荐
Hadoop基准测试程序 用户的作业 云上的Hadoop Amazon EC2上的Hadoop 第10章 管理Hadoop HDFS 永久性数据结构 安全模式 日志审计 工具 监控 日志 度量 Java管理扩展(JMX) 维护 日常...
Hadoop基准测试程序 用户的作业 云上的Hadoop Amazon EC2上的Hadoop 第10章 管理Hadoop HDFS 永久性数据结构 安全模式 日志审计 工具 监控 日志 度量 Java管理扩展(JMX) 维护 日常管理过程 委任节点和解除节点 ...
为了研究应对此挑战的海量数据存储技术,通过分析煤矿应急管理海量数据的来源及其特点,设计了云计算环境下基于NoSQL的煤矿应急管理海量数据存储方式,并对煤矿应急云平台进行了Hadoop基准测试,同时利用陕西黄陵矿业...
Hadoop平台基准性能测试工具的设计与实现
Hadoop V3.3.3 分布式部署步骤,DFSIO和Tersort基准测试
Hadoop平台基准性能测试研究
[已弃用] ALOJA大数据基准测试平台(仅供参考)快速开始熟悉Web应用程序,在以下位置浏览数据和视图: : 签出一些幻灯片或出版物作为背景和文档... 在ALOJA中,我们目前已创建了最大的与供应商无关的Hadoop基准测试库,
TPCDS Hive基准测试流程完整总结;
大数据标准化工作组织:ISO/IEC ITU NIST TPC SPEC TPC和SPEC两个组织关注大数据技术平台的基准测试: 测试标准: TPCx-HS、TPCx-BB 工具:TeraSort 大数据测试第一阶段 大数据平台(Hadoop平台)基准测试的方法论和...
建造为了构建和运行此测试,您必须将 HDFS 和 Hadoop 通用 jar 文件放入您的类路径中。 在 Hadoop 安装中,这些位于 share/hadoop/common/share/hadoop/hdfs/ 待办事项:使用 Maven。跑步运行测试时,您必须设置一些...
Spark-Terasort TeraSort是一种流行的基准测试,用于衡量在给定群集上对1 TB随机分布的数据(或所需的任何其他数据量)进行排序的时间。 它最初是用来测量Apache:trade_mark:Hadoop:registered:集群的MapReduce性能...
实验结果分析表明,对于非排序的基准测试程序,使用Spark或Flink替代Hadoop,分别带来平均77%和70%执行时间的降低。整体上,Spark的性能结果最好;而Flink通过使用的显式迭代程序,极大提高了迭代算法的性能。
随着大数据时代到来,分布式文件系统支持Hadoop大数据访问已成为一种趋势。...采用Hadoop基准程序对提出的框架进行测试,结果显示写性能提升超过45%,读性能提升超过97%,证明此框架可以有效地支持Hadoop大数据访问。
1 集群规范 (Cluster Specification) 2 集群的构建和安装 (Cluster Setup and Installation) 3 Hadoop 配置 ( Hadoop Configuration ) ...5 利用基准评测程序测试 Hadoop 集群 (Benchmarking a Hadoop Cluster)
heteroyarn_benchmarks 基准用于利用OpenCL来测试hadoop
HDFS库基准测试 该基准测试评估了基于JNI的本机libhdfs和本机实现libhdfs3( )的性能。 编译中 $ cd hdfs-benchmark $ mkdir build $ cd build $ cmake .. 如果将Hadoop安装在/usr/local/hadoop或Clouderas Hadoop...
编译: mvn clean package 使用 maven exec 插件运行: mvn exec:java -Dexec.mainClass=com.cloudera.Hardlinker -Dexec.args="generate /tmp/out1 10000" mvn exec:java -Dexec....根据需要替换您自己的路径。
陈跃国介绍了关系型结构大数据的概念以及特点,并阐述了TPC-DS基准对于实时大数据分析应用的局限性。近期,陈跃国进行了一次大规模的测试,利用人民大学的云平台,使用50台物理机,虚拟出了100个节点,并用使用TPC-...
benchmark_hbase_cassandra 使用 YCSB 对 HBase 和 Cassandra 进行基准测试的脚本。 数据库 - HBase 和 Cassandra benchmark_report.pdf 该文件包含使用 YCSB 的 HBase 和 Cassandra 基准测试结果的报告和观察结果。...