`
liudeh_009
  • 浏览: 240014 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

HDFS的实现机制

阅读更多

      当数据集的大小超过一台独立物理计算机的存储能力的时候,就有必要对其进行分区.并存储到若干台单独的计算机上.管理网络中跨多台计算机存储的文件系统称为分布式文件系统.该系统架构于网络之上,,基于网络的复杂性,该系统势必比普通磁盘文件系统更为复杂.例如能够容忍单点故障而不丢失任何数据等.分布式文件系统有很多,比如sun的NFS,google的GFS,Hadoopd的HDFS等.下文主要讲HDFS的实现机制.
  HDFS的三个实体
  数据块
     每个磁盘都有默认的数据块大小,这是磁盘进行读写的基本单位.构建于单个磁盘之上的文件系统通过磁盘块来管理该文件系统中的块.该文件系统中的块一般为磁盘块的整数倍.磁盘块一般为512字节.HDFS也有块的概念,默认为64MB(一个map处理的数据大小).HDFS上的文件也被划分为块大小的多个分块,与其他文件系统不同的是,HDFS中小于一个块大小的文件不会占据整个块的空间.
     HDFS用块存储带来的第一个明显的好处一个文件的大小可以大于网络中任意一个磁盘的容量,数据块可以利用磁盘中任意一个磁盘进行存储.第二个简化了系统的设计,将控制单元设置为块,可简化存储管理,计算单个磁盘能存储多少块就相对容易.同时也消除了对元数据的顾虑,如权限信息,可以由其他系统单独管理.
DataNode节点
     DataNode是HDFS文件系统的工作节点,它们根据需要存储并检索数据块,受NameNode节点调度.并且定期向NameNode发送它们所存储的块的列表
NameNode节点
     NameNode管理HDFS文件系统的命名空间,它维护着文件系统树及整棵树的所有的文件及目录.这些文件以两个文件形式永久保存在本地磁盘上(命名空间镜像文件和编辑日志文件).NameNode记录着每个文件中各个块所在的数据节点信息但并不永久保存这些块的位置信息,因为这些信息在系统启动时由数据节点重建.
     没有NameNode,文件系统将无法使用.如提供NameNode服务的机器损坏,文件系统上的所有文件丢失,我们就不能根据DataNode的块来重建文件.因此,对NameNode的容错非常重要.第一种机制,备份那些组成文件系统元数据持久状态的文件.通过配置使NameNode在多个文件系统上保存元数据的持久状态或将数据写入本地磁盘的同时,写入一个远程挂载的网络文件系统.当然这些操作都是原子操作.第二种机制是运行一个辅助的NameNode,它会保存合并后的命名空间镜像的副本,并在Name/Node发生故障时启用.但是辅助NameNode保存.态总是滞后于主力节点,所以在主节点全部失效后难免丢失数据.在这种情况下,一般把存储在远程挂载的网络文件系统的数据复制到辅助NameNode并作为新的主NameNode运行
  

1
0
分享到:
评论
2 楼 xiaoyao3857 2012-08-14  
引用
第一种机制,备份那些组成文件系统元数据持久状态的文件.通过配置使NameNode在多个文件系统上保存元数据的持久状态或将数据写入本地磁盘的同时,写入一个远程挂载的网络文件系统.当然这些操作都是原子操作.第二种机制是运行一个辅助的NameNode,它会保存合并后的命名空间镜像的副本,并在Name/Node发生故障时启用.但是辅助NameNode保存.态总是滞后于主力节点,所以在主节点全部失效后难免丢失数据.在这种情况下,一般把存储在远程挂载的网络文件系统的数据复制到辅助NameNode并作为新的主NameNode运行

请问这两个有什么区别吗?看了两遍,感觉还是没明白这里你说的意思
1 楼 xiaoyao3857 2012-05-31  
“当数据集的大小超过一台独立物理计算机的存储能力的时候,就有必要对其进行分区.并存储到若干台单独的计算机上.管理网络中跨多台计算机存储的文件系统称为分布式文件系统.”这也算是给分布式文件系统(包括HDFS)的出现给了一个解释吧

相关推荐

    HDFS架构和实现机制简介

    本节将对 HDFS 的整体架构和基本实现机制进行简单介绍。 HDFS 整体架构 HDFS 是一个主从 Master/Slave 架构。一个 HDFS 集群包含一个 NameNode,这是一个 Master Server,用来管理文件系统的命名空间,以及调节...

    hdfs源码.zip

    4.2.1 Datanode升级机制 312 4.2.2 Datanode磁盘存储结构 315 4.2.3 DataStorage实现 317 4.3 文件系统数据集 334 4.3.1 Datanode上数据块副本的状态 335 4.3.2 BlockPoolSlice实现 335 4.3.3 ...

    HDFS可靠性策略

    分布式文件系统(HDFS)的高可靠性主要是由多种策略及机制共同作用实现的。

    第4章 HDFS 2 4.1. 简介 2 4.1.1. 概述 2 4.1.2. 组成架构 4 4.1.3. HDFS文件块大小

    4.3. 通过Java实现HDFS操作及访问 14 4.3.1. IntelliJ IDEA 16 4.3.2. maven软件安装与配置 17 4.3.3. IDEA关联maven插件 19 4.3.4. 新建maven项目 19 4.3.5. 导入项目所需要的依赖 22 4.3.6. 编写Java代码——向...

    大数据平台构建:HDFS的重要概念.pptx

    HDFS是由Doug Cutting基于Google公司2003年10月开源的论文GFS做的开源实现,发展到目前为止,HDFS的运用非常广泛,基本上很多大数据平台大部分都会选用HDFS(或者类似HDFS)这样的分布式文件系统、来作为海量数据...

    分布式文件系统HDFS(1).pptx

    * 高可用性:HDFS通过冗余存储和心跳机制来实现高可用性和容错性。 * 简单的文件模型:HDFS使用简单的文件模型,易于使用和维护。 * 强大的跨平台兼容性:HDFS可以在多种操作系统和架构上运行,实现跨平台兼容性。 ...

    HDFS-HA工作机制

    1.HDFS-HA工作要点 1.1.元数据管理方式需要改变 内存中各自保存一份元数据; Edits日志只有Active状态的NameNode节点可以做写操作;(备份的那个不提供写操作–编辑日志不同步) 两个NameNode都可以读取Edits; 共享的...

    存储/缓存技术中的HDFS 的多安全级数据销毁机制设计(二)

    虽然硬销毁技术能绝对保证删除的数据安全,但是因为完全破坏了存储介质,导致设备不能重复使用,这对于HDFS 是不能接受的,也是基本不能实现的。  软销毁技术,主要是通过软件的方法删除数据。  软销毁技术中的...

    论文研究-面向HDFS的可证明安全的单点登录协议.pdf

    针对Hadoop distributed file system(HDFS)的安全机制中密钥管理复杂、用户需进行多次身份认证的问题,提出一个适合HDFS的基于身份的单点登录协议。协议采用基于身份的密码技术实现了用户的单点登录,同时根据各个...

    23份大数据岗位求职简历参考模板合集.rar

    大数据岗简历模板参考: 1.熟练掌握 SparkSql、SparkStreaming、Spark Core,理解 ...4.熟练使用 Kafka 实现集群分布式高吞吐量通信机制,同时借助 Zookeeper 建立生产 者和消费者的关系,实现负载均衡和持久化。 ...

    hadoop段海涛老师八天实战视频

    08-hdfs的实现机制初始.avi 09-hdfs的shell操作.avi 10-hadoop集群搭建的无密登陆配置.avi 第二天 hdfs的原理和使用操作、编程 01-NN元数据管理机制.avi 02-NN工作机制2.avi 03-DN工作原理.avi 04-HDFS的...

    11HDFS的读写流程&NameNode、DataNode工作机制——好程序

    一、 HDFS前言 ...其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色; 重要特性如下: HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( df

    分布式文件系统HDFS的起源、架构、组成、特性以及数据操作方式

    hdfs全程是HadoopDistributedFileSystem,是一个分布式文件系统。分布式是近几年非常火的技术概念,无论是云计算、大数据还是高并发的互联网架构话题都会频频出现这个词语,特别是这个大谈“大规模”的时代,分布式...

    新版Hadoop视频教程 段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发

    08-hdfs的实现机制初始.avi 09-hdfs的shell操作.avi 10-hadoop集群搭建的无密登陆配置.avi 第二天 hdfs的原理和使用操作、编程 01-NN元数据管理机制.avi 02-NN工作机制2.avi 03-DN工作原理.avi 04-HDFS的...

    Hadoop技术内幕 深入理解MapReduce架构设计与实现原理 扫描版 带简单书签

    《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:...

    《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》

    《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》内容简介:“Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:...

    hadoop技术内幕 深入解析mapreduce架构设计与实现原理.(董西成).全本

    “Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》由Hadoop领域资深的实践者...

    hadoop技术内幕 深入解析mapreduce架构设计与实现原理.(董西成).全本1

    “Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》由Hadoop领域资深的实践者...

    hadoop面试题

    3、HDFS存储的机制? 4、举一个简单的例子说明mapreduce是怎么来运行的 ? 5、面试的人给你出一些问题,让你用mapreduce来实现? 比如:现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。 ...

    hadoop技术内幕 深入解析mapreduce架构设计与实现原理

    “Hadoop技术内幕”共两册,分别从源代码的角度对“Common+HDFS”和“MapReduce的架构设计和实现原理”进行了极为详细的分析。《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》由Hadoop领域资深的实践者...

Global site tag (gtag.js) - Google Analytics