CDH4中使用distcp,目前还木有成功,把异常信息记录下
1) Connection Refused
解决:http://wiki.apache.org/hadoop/ConnectionRefused
2)Protocol message end-group tag did not match expected tag
未解决,卡在这了。。。哪位大牛帮助解决下?
折腾了一天,决定搭建两个同版本集群。记录如下:
1)用官方提供的方法执行
$ hadoop distcp hdfs://server86/block/00006DFF hdfs://server93/block/dest
异常:
java.net.ConnectException: Call From server93/*.*.*.93 to server86:8020 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused
Connection Refused,查看下8020并没有被占用,可能是端口的问题。试下别的端口(反正不太懂,瞎搞呗。)
2)$hadoop distcp hdfs://server86:50070/block/00006DFF hdfs://server93:49000/block/dest
异常:
java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details : local host is: "server93/*.*.*.93"; destination host is: "ecmserver":50070;
这。。。再改!
3)$ hadoop distcp hftp://server86:50070/block/00006DFF hdfs://server93:49000/block/dest
日志:
13/08/23 11:03:17 INFO mapreduce.Job: map 0% reduce 0%
13/08/23 11:03:29 INFO mapreduce.Job: map 100% reduce 0%
13/08/23 11:04:12 INFO mapreduce.Job: Job job_1377225445725_0001 completed successfully
成功了!兴奋暴走中。。。
【注:】93中block目录必须存在,复制时如不存在会报错地。复制完成后,93上的dest就是86上的00006DFF
问题来了,hftp:// 是跨版本集群之间用的协议,那我这两集群版本相同,那应该可以用hdfs:// 啊。试下
4)$ hadoop distcp hdfs://server86:49000/block/00006DFF hdfs://server93:49000/block/00006DFF
日志:
13/08/23 11:09:36 INFO mapreduce.Job: map 0% reduce 0%
13/08/23 11:09:46 INFO mapreduce.Job: map 100% reduce 0%
13/08/23 11:10:40 INFO mapreduce.Job: Job job_1377225445725_0002 completed successfully
成功了!!兴奋暴走中。。。。。。
5)试完了具体文件,再试下复制目录吧。
$ hadoop distcp hdfs://server86:49000/block/ hdfs://server93:49000/block/
日志不打了。也成功了。86上block目录下所有文件全部被复制到93的block/block下。也就是说把86上的block目录也一并拿过来了。
6)异常情况未测试,待定。。。
【总结:】
复制单个文件3.95G大小 : 1分12秒
复制目录(目录下3个3.95G文件):3分37秒
平均:4M/s
分享到:
相关推荐
hadoop使用distcp问题解决 然后用distcp从1.0.3的集群拷数据到2.0.1的集群中。 遇到问题处理
distcp一般用于在两个HDFS集群中传输数据,如果集群在hadoop的同一版本上运行,就适合使用hdfs方案: % hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar
java运行依赖jar包
distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝...
第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件系统.pdf第四章(Hadoop大数据处理实战)Hadoop分布式文件...
NULL 博文链接:https://201201314056.iteye.com/blog/2193117
第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式集群.pdf第二章(Hadoop大数据处理实战)搭建Hadoop分布式...
《Hadoop大数据处理》共10章涉及的主题包括大数据处理概论、基于Hadoop的大数据处理框架、MapReduce计算模式、使用HDFS存储大数据、HBase大数据库、大数据的分析处理、Hadoop环境下的数据整合、Hadoop集群的管理与...
Hadoop大数据处理实战
第五章(Hadoop大数据处理实战)Hadoop的IO操作.pdf第五章(Hadoop大数据处理实战)Hadoop的IO操作.pdf第五章(Hadoop大数据处理实战)Hadoop的IO操作.pdf第五章(Hadoop大数据处理实战)Hadoop的IO操作.pdf第五章(Hadoop大...
本书介绍了Hadoop技术的相关知识,并将理论知识与实际项目相结合。全书共分为三个部分:基础篇、应用篇和总结篇。
Hadoop大数据处理技术基础与实践(第2版)(微课版)PPT-课件.rar
hadoop海量数据处理技术详解,包括hdfs、MapReduce、hive、sqoop等相关技术和伪代码,代码是使用python语言写的。
Hadoop常见异常,以及hadoop配置,等资料
Hadoop海量文本处理2
Hadoop大数据处理讲义-C1.海量数据处理概论
hadoop海量数据处理.pdfhadoop海量数据处理.pdfhadoop海量数据处理.pdfhadoop海量数据处理.pdfhadoop海量数据处理.pdfhadoop海量数据处理.pdf
Hadoop海量数据处理 Hadoop海量数据处理 Hadoop海量数据处理
The full dataset is stored on Amazon S3 in the hadoopbook bucket, and if you have an AWS account you can copy it to a EC2-based Hadoop cluster using Hadoop’s distcp command (run from a machine in the...
Hadoop海量文本处理1