mark:HarFileSystem
source:hadoop-common-2.0.0-cdh4.3.0.jar
为了节省NN的元数据,可以将HDFS上的不再变化的小文件归档。Hadoop archives是Hadoop自带的特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive目录结构如下:
Name | Type | Size |
_SUCCESS | file | 0 B |
_index | file | 599 B |
_masterindex | file | 23 B |
part-0 | file | 48 B |
【说明:】
1. *.har在HDFS上是一个目录,不是一个文件。
2. _index和_masterindx为元数据信息。
3. part-*为真实数据集。
看下_index文件及part-0中都存了些什么:
_index:
%2F dir 1378884867194+493+cdh4+supergroup 0 0 123.txt 2013 3.txt
%2F2013 dir 1378884762156+493+cdh4+supergroup 0 0 09
%2F2013%2F09%2F10%2F1.txt file part-0 12 12 1378883181096+420+cdh4+supergroup
%2F123.txt file part-0 0 12 1378866591533+420+cdh4+supergroup
%2F2013%2F09%2F10 dir 1378884856608+493+cdh4+supergroup 0 0 1.txt
%2F2013%2F09%2F11 dir 1378884867194+493+cdh4+supergroup 0 0 2.txt
%2F2013%2F09 dir 1378884821792+493+cdh4+supergroup 0 0 10 11
%2F2013%2F09%2F11%2F2.txt file part-0 24 12 1378883185898+420+cdh4+supergroup
%2F3.txt file part-0 36 12 1378883191541+420+cdh4+supergroup
可以看到里面存储了所有打包目录及文件的层次结构,数据文件信息及内容偏移等:
/123.txt
/2013/1.txt
/2013/2.txt
/3.txt
part-0:
hdfs://aaaa
hdfs://aaaa
hdfs://aaaa
hdfs://aaaa
数据文件中记录了打包目录下所有4个文件的内容。
【*】根据元数据文件及数据文件应该可以恢复出原目录结构。
分享到:
相关推荐
分别取对应的文件夹下解压,之后将这两个文件替换到 hadoop-2.*.*/bin目录下即可 winutils.exe、hadoop.dll
各个版本Hadoop,hadoop.dll以及winutils.exe文件下载大合集,包含hadoop-2.6.5-3.2.1
我的报错:Could not locate Hadoop executable: E:\big_data\hadoop-3.3.0\bin\winutils.ex hadoop的winutils.exe及hadoop.dll文件,可以用于hadoop3.3. 下载好直接将两个文件复制到我们hadoop的bin目录下就行了
hadoop-2.7.3.tar.gz 下载 目前相对比较稳定的版本 hadoop tar 包下载hadoop-2.7.3.tar.gz 下载 hadoop tar 包下载
在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path...解决方案:下载本资源解压将hadoop.dll和winutils.exe文件复制到hadoop2.7.3的bin目录下即可解决。
hadoop2.6.0 hadoop.dll包括winutils.exe
hadoop2.7.3 Winutils.exe hadoop.dll
hadoop的hadoop.dll和winutils.exe下载
hadoop-3.2.4.tar.gz
hadoop-2.6.0.tar.gz.mds,hadoop的安装包,版本为2.6.0,适应操作系统为Linux。
hadoop2.7.4 hadoop.dll包括winutils.exe,方便大家开发和测试使用!
Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量...
hadoop-2.7.1.tar.gz.zip 提示:先解压再使用,最外层是zip文件
hadoop hadoop的hadoop.dll和winutils.exe 解决方法, 把winutils.exe加入你的hadoop-x.x.x/bin下 Could not locate executable null\bin\winutils.exe in the Hadoop binaries
hadoop-2.7.4.tar.gz-Hadoop客户端压缩包
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据...
hadoop-3.2.3.tar.gz 安装包
hadoop-2.5.2.tar.gz
hadoop-3.3.0.tar.gz
docker部署hadoop资源包.txtdocker部署hadoop资源包.txtdocker部署hadoop资源包.txtdocker部署hadoop资源包.txtdocker部署hadoop资源包.txtdocker部署hadoop资源包.txtdocker部署hadoop资源包.txtdocker部署hadoop...