`
lookqlp
  • 浏览: 341740 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop集群数据迁移

阅读更多
hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar
如果想在两个运行着不同版本HDFS的集群上利用distcp,使用hdfs协议是会失败的,因为RPC系统是不兼容的。想要弥补这种情况,可以使用基于HTTP的HFTP文件系统从源中进行读取。这个作业必须运行在目标集群上,使得HDFS RPC版本是兼容的。
例如:hadoop distcp hftp://namenode1:50070/foo hdfs://namenode2/bar

cdh如下异常:
Caused by: java.io.IOException: Check-sum mismatch between hftp://ip:50070/flume/CC/normal/2014-06-20/FlumeData.1403222404996.snappy and hdfs://ip:8020/flume/.distcp.tmp.attempt_1404355744480_0004_m_000015_2.
    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.compareCheckSums(RetriableFileCopyCommand.java:190)
    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doCopy(RetriableFileCopyCommand.java:125)
    at org.apache.hadoop.tools.mapred.RetriableFileCopyCommand.doExecute(RetriableFileCopyCommand.java:95)
    at org.apache.hadoop.tools.util.RetriableCommand.execute(RetriableCommand.java:87)
    ... 11 more
解决方法:
hdfs增加如此参数
<property>
<name>dfs.checksum.type</name>
<value>CRC32</value>
</property>

另外若目标集群若配置了安全机制,例如kerberos,distcp运行失败,暂时解决办法是禁用安全机制,先将数据迁移。
分享到:
评论

相关推荐

    Hadoop集群datanode磁盘不均衡的解决方案

    Hadoop的HDFS集群非常容易...因业务需要搭建一个新hadoop集群,并将老的hadoop集群中的数据迁移至新的hadoop集群,而且datanode节点不能全部上线,其中还可能会出现节点上线或下线的情况,这个时候就很容易出现机器与

    大数据课程-Hadoop集群程序设计与开发-10.Sqoop数据迁移_lk_edit.pptx

    大数据课程——Hadoop集群程序设计与开发,教师版,提供教学大纲、教案、教学设计、实训文档等,课程内容包含教学准备环境、软件安装、作业、教学文档、演示视频,花费巨额时间亲自制作,下载后可私信提供上述所有...

    大数据-数据迁移-hive、hbase、kudu迁移

    下面为从自建的数据中心迁移hadoop到华为云上适配大数据平台MRS的一次项目迁移,此项目涉及到hive、kudu、hbase 的数据迁移,数据总量达到了15T,此文档是耗时5月时间和时间的检验,通过脚本编辑批量迁移完成大数据...

    hadoop-trans:集群数据迁移,数据合并压缩

    项目编译打包gradle build -x test编译完成后jar包所在位置: hadoop-trans/build/libs/hadoop-trans-1.0-SNAPSHOT.jar使用说明类TransTablePartition适用于迁移某个库下面某个表一个时间内的分区数据类...

    hadoop基础教程

    Amazon网络服务提供的托管Hadoop集群的运行方式,以及它与用户直接管理的Hadoop集群有何区别, Hadoop与关系数据库的融合,使用Hive执行SQL查询,使用Sqoop迁移数据, 组成Hadoop生态系统的其他项目和工具,以及...

    spydra:使用Google Compute Platform的临时Hadoop集群

    Spydra(测试版) 使用Google Compute Platform的临时Hadoop集群描述Spydra是“ Hadoop集群即服务”,实现为利用和。 Spydra的目的是启用临时Hadoop群集,同时隐藏群集生命周期管理的复杂性并简化故障排除过程。 ...

    在Hadoop集群环境中为MySQL安装配置Sqoop的教程

    主要介绍了在Hadoop集群环境中为MySQL安装配置Sqoop的教程,Sqoop一般被用于数据库软件之间的数据迁移,需要的朋友可以参考下

    hadoop-clustering:使用Hadoop执行集群的算法

    Hadoop集群使用Hadoop执行集群的算法

    结合使用Hadoop和Couchbase

    简介:Hadoop非常适合处理大量数据并将该信息解析为您可查询的较小的信息集。...Hadoop的主要组件是HDFS文件系统,它支持将信息分布到整个集群中。对于使用这种分布格式存储的信息,可以通过一个名为MapReduce的

    CDH5.9.0节点删除下线

    CDH5.9.0集群的节点删除,步骤详细,并附有步骤的截图。

    大数据云计算技术系列 Hadoop之Hbase从入门到精通(共243页).pdf

    HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google Bigtable的开源实现,类似Google Bigtable利用...

    论文研究-基于集群规模调整的节能存储策略.pdf

    通过研究集群数据块访问规律,提出一种基于集群规模调整的Hadoop分布式文件系统(HDFS)节能存储策略,实现HDFS高效节能存储。策略主要在集群区域划分、数据块迁移策略优化、缓存机制等方面作出了改进。实验结果表明...

    【向Linux迁移记录】Deepin Linux下快速Hadoop完全分布式集群搭建-附件资源

    【向Linux迁移记录】Deepin Linux下快速Hadoop完全分布式集群搭建-附件资源

    hadoop大数据实战手册

    第1 章HDFS 的数据存储………….. .....………………… ……………………····· ··· …..... ... 2 1.1 HDFS 内存存储...............…··························· ·· ···...

    大数据开源框架集锦.pdf

    提供⼀个集中的管理机制,所有数据权限 Sentry Hadoop集群元数据和数据存储提供集中、细粒度的访问控制项⽬ 14 数据可视化 Kibana ⽤于和 Elasticsearch ⼀起使⽤的开源的分析与可视化平台 15 数据挖掘 Mahout 基于...

    HBASE跨集群迁移总结---扎啤1

    方案一:DistCp 迁移(需要停掉集群)disable tablename(单张表 disable)disable_all (整个 hbase 所有表 dis

    hops:Hops Hadoop是具有分布式元数据的Apache Hadoop发行版

    Hops Hadoop发行版 啤酒花(H adoopö笔P latform-AS-A-小号ervice)是下一代分布可扩展,高可用性,可定制的元数据。... HopsFS和HopsYARN一起使Hadoop集群可以扩展到更大的容量和更高的吞吐量。 在线文件

    SQL-DFS:一种基于HDFS的海量小文件存储系统.pdf

    针对 Hadoop 分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时 NameNode 内存占用率高的问题,通过分析 HDFS 基础架构,提出了基于元数据存储集群的 SQL-DFS 文件系统. 通过在 NameNode 中加 入...

Global site tag (gtag.js) - Google Analytics