命令行查看当前正在执行的job id:
[hadoop@compute-63-9 ~]$ /hadoop/hadoop_home/bin/hadoop job -jt compute-63-0:9001 -list all |awk '{ if($2==1) print $1 }'
job_201203311041_0041
设置副本数目
hadoop fs -setrep [-R] [-w] <副本個數> <HDFS檔案名稱>
设置map输出压缩:
conf.set("mapred.compress.map.output", "true")
conf.set("mapred.output.compression.type", "BLOCK");
conf.set("mapred.map.output.compression.codec", "org.apache.hadoop.io.compress.GzipCodec");
存储写满了。
org.apache.hadoop.util.DiskChecker$DiskErrorException: Could not find any valid local directory for taskTracker/jobcache/job_201108311619_0703/attempt_201108311619_0703_m_000076_0/output/spill0.out
Error: java.io.IOException: No space left on device
java.io.IOException: Task: attempt_201108311619_0703_r_000002_0 - The reduce copier failed
hadoop目的地启动distcp数据传输:
hadoop distcp hdfs://172.30.4.50:9000/user/hadoop/lisk/mouse/str/ hdfs://hs14:9000/user/hadoop/gusc/new_contig
或者
hadoop distcp hdfs://172.30.4.50:9000/user/hadoop/lisk/mouse/id /user/hadoop/gusc
Map与Reduce之间的格式要注意,如果没写Map的输出格式,则默认按照Reduce的处理。如果Map和Reduce直接数据格式不一致,则需要指明:
job.setMapOutputKeyClass(Class<?> theClass)
job.setMapOutputValueClass(Class<?> theClass)
job.setOutputKeyClass(Class<?> theClass)
job.setOutputValueClass(Class<?> theClass)
Reducer的类型没对应上有时候并不会出错,得仔细检查。如下所示,这时候会调用默认的reducer来执行。
public static class Reduce extends Reducer<LongWritable, Text, Text, Text> {
public void reduce(Text key, Iterable<Text> values, Context context)
throws IOException, InterruptedException {
}
}
分享到:
相关推荐
Hadoop使用常见问题以及解决方法,简单实用
hadoop单元测试方法--使用和增强MRUnit.docx
Hadoop使用常见问题以及解决方法.doc Hadoop使用常见问题以及解决方法.doc
详细的hadoop单机配置步骤,非常好的一个文档。
安装hadoop的时候或者使用的时候,会出现hadoop常见问题及解决方法
文档主要用于对hadoop搭建及使用过程出现的问题的解决
Hadoop 2.0安装部署方法,手把手教,如何在linux上安装hadoop
hadoop的集群安装方法和虚拟机安装方法,亲测成功,系统为centos7
Hadoop是一个主要由Java语言开发的项目,基于Hadoop的MapReduce程序也主要是使用Java语言来编写。...经过调研,在MapReduce任务中使用C++程序的方法主要有三种:Hadoop Streaming、Hadoop Pipes以及Hadoop JNI。
使用方法: 前提是你已经在windows上安装hadoop2.7.1。请将hadoop2.7.1中的bin和etc删除,使用hadooponwindows-master中的bin和etc代替 资源说明: 有些时候,我们想在自己电脑windows系统上使用hadoop,这样省去了...
此教程来自于王家林免费发布的3本Hadoop教程:...王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手之巅”通过当今主流的Hadoop商业使用方法和最成功的Hadoop大型案例让您直达高手之巅,从此一览众山小。
主要介绍了 Hadoop Combiner使用方法详解的相关资料,希望通过本文能帮助到大家让大家理解掌握这部分内容,需要的朋友可以参考下
10-多个job在同一个main方法中提交.avi 第五天 hadoop2.x中HA机制的原理和全分布式集群安装部署及维护 01-zookeeper.avi 02-zookeeper2.avi 03-NN高可用方案的要点1.avi 04-hadoop-HA机制的配置文件.avi 05-...
本书全面介绍Elasticsearch Hadoop技术用于大数据分析以及数据可视化的方法。内容共分7章,包括Hadoop、Elasticsearch、 Marvel和 Kibana 安装;通过编写 MapReduce 作业,把Hadoop数据导入 Elasticsearch;全面...
hadoop hadoop的hadoop.dll和winutils.exe 解决方法, 把winutils.exe加入你的hadoop-x.x.x/bin下 Could not locate executable null\bin\winutils.exe in the Hadoop binaries
windows环境下运行hadoop的mapreduce程序需要的hadoop.dll winutils.exe等文件,使用方法见解压文件,该文件对应的hadoop版本是 2.7.2 , 请注意版本一致
Hadoop是一个开源的MapReduce平台,设计运行在大型分布式集群环境中,提供查询和分析服务。尤其适用于大数据系统,Hadoop为苹果、eBay、LinkedIn、雅虎和Facebook等公司提供重要软件环境。它为开发者进行数据存储、...
使用vm测试3台虚拟机构建的hadoop集群的方法
在分析Hadoop MapReduce作业执行模式后,提出了一种作业执行时间在线预测方法.该方法在结合历史信息的基础上,可根据作业在不同阶段的执行进度在线预测执行时间.该方法已在Hadoop-0.20.2中实现,并在一个包含19个节点的...
hadoop1升级到hadoop2具体步骤及方法