阅读更多

4顶
0踩

开源软件



Hadoop 2.1.0 Beta 版 HDFS 提供了SnapShot 模块。用于数据备份、回滚,以防止因用户的失误操作导致集群出现问题。本文先做一个简单的介绍,其他的文章在来介绍Snapshot 本身的实现机制。

HDFS Snapshot有以下几个特性:

  • Snapshot 创建的时间 复杂度为O(1),但是不包括INode 的寻找时间
  • 只有当修改SnapShot时,才会有额外的内存占用,内存使用量为O(M),M 为修改的文件或者目录数
  • 在datanode 上面的blocks 不会复制,做Snapshot 的文件是纪录了block的信息
  • Snapshot 并不会影响HDFS 的正常操作
产生了以下新的概念:

  • Snapshot table:Snapshots 会存储在snapshottable的目录下。snapshottable下存储的snapshots 最多为65535个
  • Snapshot 路径:举例,假设/foo  是snapshottable,/foo/bar 是文件目录,/foo 拥有一个s0的snapshot,那么路径会是 /foo/.snapshot/s0/bar,我们可以通过
  •       hdfs dfs -ls /foo/.snapshot
          hdfs dfs -ls /foo/.snapshot/s0
          hdfs dfs -cp /foo/.snapshot/s0/bar /tmp

    来操作与查看副本文件。

Snapshot 基本操作:

  • 对一个路径开启Snapshot: hdfs dfsadmin -allowSnapshot <path>
  • 关闭 Snapsshots: hdfs dfsadmin -disallowSnapshot <path>
  • 创建Snapshosts:hdfs dfs -createSnapsshot <path> [snapshot names]
  • 删除Snapshots:hdfs dfs -deleteSnaphost <path> <snapshotName>
  • 修改Snapshots的名字:hdfs dfs -renameSnapshot <path>  <oldname> <newname>
  • 获取Snapshot 列表:hdfs lsSnapshottableDir
  • 获取两个Snapshot的不同:hdfs snapsshotDiff <path> <fromSnapshot> <toSnapshot>
资料来源:hadoop.apache.org
  • 大小: 9.2 KB
4
0
评论 共 9 条 请登录后发表评论
9 楼 niko7 2013-09-04 14:49
有机会要好好看看啊。这个东西在家里也搞不出名堂吧,得大数据,得多台机器才行。
8 楼 yj8714 2013-08-29 15:53
yj8714 写道
yj8714 写道
385104182 写道
hadoop太活跃了,厉害

确实很活跃啊。。。

希望有空了。。好好研究研究

希望好好看看
7 楼 yj8714 2013-08-29 15:53
yj8714 写道
385104182 写道
hadoop太活跃了,厉害

确实很活跃啊。。。

希望有空了。。好好研究研究
6 楼 yj8714 2013-08-29 15:52
385104182 写道
hadoop太活跃了,厉害

确实很活跃啊。。。
5 楼 sgq0085 2013-08-29 13:05
翻译的真搞笑 快照Snapshot是一个单词 又不是两个单词的集合
4 楼 liuwei0376 2013-08-29 10:31
新版本意味着不太稳定啊,可以在家尝尝鲜,公司里不敢用。
3 楼 freezingsky 2013-08-28 20:53
没机会接触,很遗憾啊。。。
2 楼 385104182 2013-08-28 13:19
hadoop太活跃了,厉害
1 楼 yunzhu 2013-08-28 11:45
这个好


发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • hadoop hdfs 备份快照

    snapshot为hadoop2.1.0时新增加的功能。 主要为防止用户误删数据,和数据备份的作用 快照的对象为HDFS目录,前提是该目录是可以允许设置快照的(SnapShotable)

  • Hadoop 2.1.0 beta HDFS SnapShot 介绍

     Hadoop 2.1.0 Beta 版 HDFS 提供了SnapShot 模块。用于数据备份、回滚。已防止因用户的失误操作导致集群出现问题。本文先做一个简单的介绍,其他的文章在来介绍Snapshot 本身的实现机制。    首先    HDFS...

  • HDFS snapshot操作实战

    Hadoop从2.1.0版开始提供了HDFS SnapShot的功能。一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像。快照在下面场景下是非常有用: 防止用户的错误操作:管理员可以通过以滚动的方式周期性设置...

  • 2.2.12 hadoop体系之离线计算-mapreduce分布式计算-hadoop常见问题总结(hdfs+yarn+mapreduce)

    目录 ...5. 请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么? 6. 简述Hadoop的几个默认端口以及含义 7. 文件大小默认为64MB,改为128MB有啥影响? 8. 简述Sec

  • Flink1.13集成Hadoop3.x以上版本

    org.apache.flink.core.fs.UnsupportedFileSystemSchemeException: Could not find a file system implementation for scheme 'hdfs'. The scheme is not directly supported by Flink and no Hadoop file system to...

  • Hadoop之HDFS面试题整理

    1.2HDFS(☆☆☆)1.2.1 HDFS 中的 block 默认保存几份?(A)A.3 份B.2 份C.1 份D.不确定1.2.2HDFS 默认 BlockSize 是(C)A.32MBB.64MB(2.7.2版本,本地模式)C.128MB(2.7.2版本,分布式模式)1.2.3 Client 端...

  • hdfs snapshot 快照的使用场景应用与操作命令的介绍

    Hadoop从2.1.0版开始提供了HDFS SnapShot的功能。 一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像。快照在下面场景下是非常有用: 二:场景 防止用户的错误操作: 管理员可以通过以滚动的方式...

  • Centos7 搭建Hadoop3.0.3 +Zookeeper3.4.12+HBase2.1.0

    Hadoop3.0.3 Zookeeper3.4.12 HBase2.1.0 服务器资源 IP地址 hostname 是否NameNode 是否DataNode 192.168.60.204 master 是 否 192.168.60.205 node1 否 是 1、Ce...

  • 【大数据开发运维解决方案】Hadoop2.7.6+Spark2.4.4+Scala2.11.12+Hudi0.5.2单机伪分布式安装

    [root@hadoop scala-2.11.12]# cd /hadoop/ [root@hadoop hadoop]# mkdir spark [root@hadoop hadoop]# cd spark/ 通过xftp上传安装包到spark目录 [root@hadoop spark]# tar -zxvf spark-2.4.4-bin-hadoop2.7.tgz ...

  • day36~37_HDFS分布式文件存储系统

    HDFS分布式文件存储系统 一、HDFS概述 (一)HDFS产生背景 随着数据量越来越大,在一个文件系统下无法存储海量数据,普通硬件支持的...Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardwa

  • scala版本,spark将HDFS上的数据同步到hbase

    1 spark将HDFS上的数据同步到hbase 将hdfs数据转换为hfile, 快速导入hbase 2 pom.xml &lt;?xml version="1.0" encoding="UTF-8"?&gt; &lt;project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi=...

  • Hadoop生态从0到1_理论篇_[HDFS|Yarn|MapReduce|Hive]_CodingPark编程公园

    文章介绍: 本文将带领你进入Hadoop的生态世界,本文为Hadoop生态从0到1_理论篇

  • HDFS面试题 1 阿善有用

    1.2HDFS(☆☆☆) 1.2.1 HDFS 中的 block 默认保存几份?(A) A.3 份 B.2 份 C.1 份 D.不确定 1.2.2HDFS默认BlockSize是(C) A.32MB B.64MB(2.7.2版本,本地模式) C.128MB(2.7.2版本,分布式模式) 1.2.3 Client 端上传...

  • hbase安装配置(整合到hadoop) .

    [-] 快速单击安装 下载解压最新版本 启动 HBaseHbase Shell 练习停止 HBaseHbase集群安装前注意分布式...替换hadoop的jar包 运行和确认安装当Hbase托管ZooKeeper的时候独立的zookeeper启动测试安装中出现的问

  • HDFS NameNode重启优化

    在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,不论采用何种架构,重启期间集群整体存在可用性和可靠性的风险,所以优化NameNode重启非常关键。 本文基于Hadoop-2....

  • rockyou.txt

    rockyou

  • ASP+ACCESS网上人才信息管理系统(源代码+论文)【ASP】.zip

    ASP+ACCESS网上人才信息管理系统(源代码+论文)【ASP】

  • 河北金融学院经济大数据课设2024年 软科学校爬虫课设

    河北金融学院经济大数据课设2024年 软科学校爬虫课设

  • widgetsnbextension-4.0.0b0-py3-none-any.whl

    Python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库,如NumPy、Pandas和Requests,极大地丰富了Python的应用领域,从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,Matplotlib和Seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

  • 协同过滤服务+源代码+文档说明

    - 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! <项目介绍> 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 --------

Global site tag (gtag.js) - Google Analytics