`
sungyang
  • 浏览: 20141 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop hdfs fsimage和eidts

阅读更多

1、在HDFS中,fsimage和eidts是NameNode两个非常重要的文件。

其中,fsimage是HDFS文件系统存于硬盘中的元数据检查点,里面记录了自最后一次检查点之前HDFS文件系统中所有目录和文件的序列化信息;而edits保存了自最后一次检查点之后所有针对HDFS文件系统的操作,比如:增加文件、重命名文件、删除目录等等。

2、在NameNode启动时候,会先将fsimage中的文件系统元数据信息加载到内存,然后根据eidts中的记录将内存中的元数据同步至最新状态;所以,这两个文件一旦损坏或丢失,将导致整个HDFS文件系统不可用。这两种文件存放在${dfs.namenode.name.dir}/current/目录下,文件名以edits_和fsimage_命名,该目录为NameNode上的本地目录。

3、为了保证这两种元数据文件的高可用性,一般的做法,将dfs.namenode.name.dir设置成以逗号分隔的多个目录,这多个目录至少不要在一块磁盘上,最好放在不同的机器上,比如:挂载一个共享文件系统。

4、类似于数据库中的检查点,为了避免edits日志过大,在Hadoop1.X中,SecondaryNameNode会按照时间阈值(比如24小时)或者edits大小阈值(比如1G)周期性的将fsimage和edits的合并,然后将最新的fsimage推送给NameNode。而在Hadoop2.X中,这个动作是由Standby NameNode来完成。

5、由于这两种文件时经过序列化的,非文本的,因此无法直接查看,Hadoop2.X中,hdfs提供了查看这两种文件的工具:

查看fsimage:

命令hdfs oiv用于将fsimage文件转换成其他格式的,如文本文件、XML文件。该命令需要以下参数:

必须参数:

-i,–inputFile <arg>      输入FSImage文件.

-o,–outputFile <arg> 输出转换后的文件,如果存在,则会覆盖

可选参数:

-p,–processor <arg>   将FSImage文件转换成哪种格式: (Ls|XML|FileDistribution).默认为Ls.

-h,–help           显示帮助信息

hdfs oiv -i /data1/hadoop/dfs/name/current/fsimage_0000000000019372521 -o /home/hadoop/fsimage.txt

执行后查看more /home/Hadoop/fsimage.txt

查看eidts:

命令hdfs oev用于查看edits文件。

该命令需要以下参数:

必须参数:

-i,–inputFile <arg>     输入edits文件,如果是xml后缀,表示XML格式,其他表示二进制。

-o,–outputFile <arg> 输出文件,如果存在,则会覆盖。

可选参数:

-p,–processor <arg>   指定转换类型: binary (二进制格式), xml (默认,XML格式),stats (打印edits文件的静态统计信息)

-h,–help                显示帮助信息

-f,–fix-txids          重置输入edits文件中的transaction IDs

-r,–recover           使用recovery模式,跳过eidts中的错误记录。

-v,–verbose          打印处理时候的输出。

例子:

hdfs oev -i /data1/hadoop/dfs/name/current/edits_0000000000019382469-0000000000019383915 -o /home/hadoop/edits.xml

分享到:
评论

相关推荐

    hadoop-hdfs-fsimage-exporter:将Hadoop HDFS内容统计信息导出到Prometheus

    Prometheus Hadoop HDFS FSImage导出器 | 将Hadoop HDFS统计信息导出到包括 总数/每个用户/每个组/每个配置的目录路径/每个路径集 目录数 文件数 文件大小和大小分布(可选) 块数 文件复制(总体/每个用户摘要)...

    hadoop hdfs配置

    大数据,hadoop,hdfs配置,java开发

    hfsa:Hadoop FSImage分析器(HFSA)

    支持对HDFS数据文件以及用户和组目录的概述进行概述(回答“谁拥有多少个/大/小文件...”) 一个用于从派生的用于快速和部分多线程的fsimage处理API文件,目录和符号链接访问者的) 库的用法示例 有关示例用法,请...

    hadoop-hdfs:Hadoop分布式文件系统hdfs代码分析

    hadoop-hdfs Hadoop分布式文件系统hdfs代码分析目录介绍Datanode-数据块基本结构主要介绍了HDFS中第二关系块结构,数据块到数据中断的映射关系。退役-中断退款主要介绍了数据异步下线取消机制。INode-文件目录结构...

    hdfs源码.zip

    3.1.4 FSImage类 138 3.1.5 FSDirectory类 158 3.2 数据块管理 162 3.2.1 Block、Replica、BlocksMap 162 3.2.2 数据块副本状态 167 3.2.3 BlockManager类(done) 177 3.3 数据节点管理 211 3.3.1 ...

    大数据工作面试练习题 BAT大数据面试题 Hadoop、kafka、HDFS、Spark、MapReduce 共19页.pdf

    12、fsimage和edit的区别? 10 13、列举几个配置文件优化? 10 14、datanode首次加入 cluster 的时候,如果 log 报告不兼容文件版本,那需要namenode 执行格式化操作,这样处理的原因是? 11 15、MapReduce 中排序...

    hadoop2.7安装演示

    Using the OfflineImageViewer, clients can now browse an fsimage via the WebHDFS API. The NFS gateway received a number of supportability improvements and bug fixes. The Hadoop portmapper is no longer ...

    hadoop-health-check:在docker上运行的基于ELK的仪表板可提供使用状​​况检查的见解

    HDFS:对整个FSImage进行了索引,您可以在基于目录的级别上进行汇总,并搜索包括元数据和访问时间在内的特定文件 纱:在实时仪表板中以分钟为单位对历史数据建立索引并进行实时汇总 Ambari:索引并搜索Ambari警报以...

    Hadoop学习笔记(二)Hadoop 分布式文件系统 HDFS:1.HDFS基础

    maven的安装、路径配置、修改库文件路径和eclipse中的配置,解决Eclipse使用Maven下载慢的问题 1.3、创建一个maven工程HDFS 1.4、 导入相应的依赖坐标加日志添加 junit junit RELEASE org.apache.logging....

    大数据安全hadoop所用ppt

    hadoop集群配置 大数据安全---大数据概述 fsimage和editlog读取方法 大数据处理架构hadoop linux基础命令操作方法 hdfs读取文件

    Apache Hadoop 2.7.2

    Using the OfflineImageViewer, clients can now browse an fsimage via the WebHDFS API. The NFS gateway received a number of supportability improvements and bug fixes. The Hadoop portmapper is no longer...

    NNAnalytics:NameNodeAnalytics 是一个自助实用程序,用于侦察和维护 HDFS 实例的命名空间

    git clone https://github.com/paypal/NNAnalytics.git nna && cd ./nna && ./gradlew -PmainClass=org.apache.hadoop.hdfs.server.namenode.analytics.TestWithMiniClusterWithStreamEngine execute 然后访问 ,您...

    HDFS详解②

    文章目录HDFS4 HDFS的数据流4.1 HDFS写数据流程4.1.1 剖析文件写入4.1.2 网络拓扑-节点距离计算4.1.3 机架感知(副本存储节点选择)4.2 HDFS读数据流程5 NameNode和SecondaryNameNode(面试开发重点)5.1 NN和2NN...

    hadoop分析

    HDFS实现时,没有采用定期导出元数据的方法,而是采用元数据镜像文件(FSImage)+日子文件(edits)的备份机制。寻路径流程:路径信息bocks[]triplets[]Client------------》INode---------------------》BlockInfo ...

    monkeysayhi#HexoBlogOnGithub#HDFS-1.x、2.x的RPC接口1

    开启HA后的检查点工作原理在1.x中已经介绍了未开启HA时的检查点工作原理:fsimage与editlog仅保存在唯一的名字节点上,第二名字节点定期合并得到新的

    大数据开发笔试.docx

    答:Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:首先HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平...

    大数据开发技术.pdf

    1.SecondaryNameNode 中保存了一份和 namenode 一致的镜 像文件(fsimage)和编辑日志(edits) 。2.在主 namenode 发生 故障时(假设没有及时备份数据) ,可以从 SecondaryNameNode HDFS 读数据流程? 1. 跟 ...

    Java版水果管理系统源码-big-data-knowledge::open_book:大数据相关知识集锦

    HDFS具有高容错性和高吞吐性的特点 HDFS目前是 append only,暂时不支持随机 write 的操作 HDFS适合用于存储以及批量操作大规模的数据集(PB级别) 不适合实时访问,具有高延迟性,例如新建了一张hive表,需要过一会...

    git-test:git测试

    hadoop-hdfs Hadoop分布式文件系统hdfs代码分析目录介绍 Datanode-数据块基本结构主要介绍了HDFS中第二关系块结构,数据块到数据中断的映射关系。退役-中断退款主要介绍了数据异步下线取消机制。 INode-文件目录结构...

Global site tag (gtag.js) - Google Analytics