`
XMaster
  • 浏览: 36823 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop的DistCp

阅读更多
详细参见:http://hadoop.apache.org/docs/r0.19.0/distcp.html#cpver

DistCp(分布式复制)是一种hadoop提供的工具,用于大集群间大量数据复制。

基本的用法:
1.DistCp最常见的调用是一个集群之间的拷贝
bash$ hadoop distcp hdfs://nn1:8020/foo/bar \
                    hdfs://nn2:8020/bar/foo
【Note:】that DistCp expects absolute paths

2.也可以在命令行上指定多个源目录:
bash$ Hadoop distcp hdfs://nn1:8020/foo/a \
                    hdfs://nn1:8020/foo/b \
                    hdfs://nn2:8020/bar/foo

3.HDFS的版本之间的复制
对于复制集群为两个不同版本的Hadoop,通常会使用HftpFileSystem。这是一个只读的文件系统,所以DistCp必须运行在目标群。
hftp://<dfs.http.address>/<path> (the default dfs.http.address is amenode>:50070).
分享到:
评论

相关推荐

    hadoop使用distcp问题解决

    hadoop使用distcp问题解决 然后用distcp从1.0.3的集群拷数据到2.0.1的集群中。 遇到问题处理

    hadoop distcp

    distcp一般用于在两个HDFS集群中传输数据,如果集群在hadoop的同一版本上运行,就适合使用hdfs方案: % hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar

    hadoop-distcp-2.6.0-sources.jar

    java运行依赖jar包

    hadoop中文乱码问题

    NULL 博文链接:https://201201314056.iteye.com/blog/2193117

    hadoop权威指南de数据集.

    The full dataset is stored on Amazon S3 in the hadoopbook bucket, and if you have an AWS account you can copy it to a EC2-based Hadoop cluster using Hadoop’s distcp command (run from a machine in the...

    hadoop-distcp-2.6.0.jar

    distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝...

    tencentyun#intlcloud-documents#Hadoop 文件系统与 COS 之间的数据迁移_intl_zh1

    简介Hadoop Distcp(Distributed copy)主要是用于 Hadoop 文件系统内部或之间进行大规模数据复制的工具,它基于 Map/Redu

    基于Apache Spark的Spark DistCP重实现设计源码

    本源码为基于Apache Spark的Spark DistCP重实现设计,共包含48个文件,其中scala文件30个,xml...该项目是对Hadoop DistCP的重新实现,使用Scala语言在Apache Spark框架中进行,提供了分布式文件系统之间的复制功能。

    hadoop大数据实战手册

    3.4.3 Hadoop 纠删码概述…·…········· ·· ·· ····· ·· ····· · ··· · ······· ·· ….... . .. .…..... .. ....................... 147 3.4.4 纠删码技术在Hadoop 中的...

    hadoop-2.6.0-cdh5.16.2的压缩包.rar

    主要是因为hadoop的cdh5官网收费,项目下载不了了,上传我下载的到csdn方便各位下载

    hadoop-distcp-2.6.0-test-sources.jar

    java运行依赖jar包

    apache hadoop 2.7.2.chm

    DistCp GridMix Rumen Scheduler Load Simulator Reference Release Notes API docs Common CHANGES.txt HDFS CHANGES.txt MapReduce CHANGES.txt YARN CHANGES.txt Metrics Configuration core-default....

    Hadoop 2.0 生态系统第六章 数据传输DistCp

    Hadoop 2.0 生态系统第六章 数据传输DistCp

    Hadoop权威指南 第二版(中文版)

     通过 distcp并行拷贝  保持 HDFS 集群的均衡  Hadoop的归档文件  使用Hadoop归档文件  不足 第4章 Hadoop I/O  数据完整性  HDFS的数据完整性  LocalFileSystem  ChecksumFileSystem  压缩  codec  ...

    Hadoop权威指南(中文版)2015上传.rar

    通过 distcp并行拷贝 保持 HDFS 集群的均衡 Hadoop的归档文件 使用Hadoop归档文件 不足 第4章 Hadoop I/O 数据完整性 HDFS的数据完整性 LocalFileSystem ChecksumFileSystem 压缩 codec 压缩和输入切分 在MapReduce...

    Hadoop官方中文帮助文档1.1.0

    本文档为Apache官方Hadoop 1.1.0中文文档 文档目录: 1.概述 ...10.DistCp使用指南 11.Map-Reduce教程 12.Hadoop本地库 13.Streaming 14.Hadoop Archives 15.Hadoop On Demand 另附带 Hadoop API

    hadoop 权威指南(第三版)英文版

    Parallel Copying with distcp Keeping an HDFS Cluster Balanced Hadoop Archives Using Hadoop Archives Limitations 4. Hadoop I/O . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....

    【IT十八掌徐培成】Hadoop第05天-02.写文件一致性-distcp-scp远程间复制-har.zip

    【IT十八掌徐培成】Hadoop第05天-02.写文件一致性-distcp-scp远程间复制-har.zip

    Distcp工具深入分析

    DistCp命令是hadoop用户最常使用的命令之一,它位于hadooptools包中,代码不多,约1300多行,主要用于在两个HDFS集群之间快速拷贝数据。DistCp工具代码结构清晰易懂,通过分析该工具的代码  引言  DistCp命令是...

Global site tag (gtag.js) - Google Analytics