详细参见:http://hadoop.apache.org/docs/r0.19.0/distcp.html#cpver
DistCp(分布式复制)是一种hadoop提供的工具,用于大集群间大量数据复制。
基本的用法:
1.DistCp最常见的调用是一个集群之间的拷贝
bash$ hadoop distcp hdfs://nn1:8020/foo/bar \
hdfs://nn2:8020/bar/foo
【Note:】that DistCp expects absolute paths
2.也可以在命令行上指定多个源目录:
bash$ Hadoop distcp hdfs://nn1:8020/foo/a \
hdfs://nn1:8020/foo/b \
hdfs://nn2:8020/bar/foo
3.HDFS的版本之间的复制
对于复制集群为两个不同版本的Hadoop,通常会使用HftpFileSystem。这是一个只读的文件系统,所以DistCp必须运行在目标群。
hftp://<dfs.http.address>/<path> (the default dfs.http.address is amenode>:50070).
分享到:
相关推荐
hadoop使用distcp问题解决 然后用distcp从1.0.3的集群拷数据到2.0.1的集群中。 遇到问题处理
distcp一般用于在两个HDFS集群中传输数据,如果集群在hadoop的同一版本上运行,就适合使用hdfs方案: % hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar
java运行依赖jar包
NULL 博文链接:https://201201314056.iteye.com/blog/2193117
The full dataset is stored on Amazon S3 in the hadoopbook bucket, and if you have an AWS account you can copy it to a EC2-based Hadoop cluster using Hadoop’s distcp command (run from a machine in the...
distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝...
简介Hadoop Distcp(Distributed copy)主要是用于 Hadoop 文件系统内部或之间进行大规模数据复制的工具,它基于 Map/Redu
本源码为基于Apache Spark的Spark DistCP重实现设计,共包含48个文件,其中scala文件30个,xml...该项目是对Hadoop DistCP的重新实现,使用Scala语言在Apache Spark框架中进行,提供了分布式文件系统之间的复制功能。
3.4.3 Hadoop 纠删码概述…·…········· ·· ·· ····· ·· ····· · ··· · ······· ·· ….... . .. .…..... .. ....................... 147 3.4.4 纠删码技术在Hadoop 中的...
主要是因为hadoop的cdh5官网收费,项目下载不了了,上传我下载的到csdn方便各位下载
java运行依赖jar包
DistCp GridMix Rumen Scheduler Load Simulator Reference Release Notes API docs Common CHANGES.txt HDFS CHANGES.txt MapReduce CHANGES.txt YARN CHANGES.txt Metrics Configuration core-default....
Hadoop 2.0 生态系统第六章 数据传输DistCp
通过 distcp并行拷贝 保持 HDFS 集群的均衡 Hadoop的归档文件 使用Hadoop归档文件 不足 第4章 Hadoop I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem 压缩 codec ...
通过 distcp并行拷贝 保持 HDFS 集群的均衡 Hadoop的归档文件 使用Hadoop归档文件 不足 第4章 Hadoop I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem 压缩 codec 压缩和输入切分 在MapReduce...
本文档为Apache官方Hadoop 1.1.0中文文档 文档目录: 1.概述 ...10.DistCp使用指南 11.Map-Reduce教程 12.Hadoop本地库 13.Streaming 14.Hadoop Archives 15.Hadoop On Demand 另附带 Hadoop API
Parallel Copying with distcp Keeping an HDFS Cluster Balanced Hadoop Archives Using Hadoop Archives Limitations 4. Hadoop I/O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....
【IT十八掌徐培成】Hadoop第05天-02.写文件一致性-distcp-scp远程间复制-har.zip
DistCp命令是hadoop用户最常使用的命令之一,它位于hadooptools包中,代码不多,约1300多行,主要用于在两个HDFS集群之间快速拷贝数据。DistCp工具代码结构清晰易懂,通过分析该工具的代码 引言 DistCp命令是...