`
sungyang
  • 浏览: 20283 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop block

阅读更多

1、Block,文件块:最基本的存储单位。文件被切成多个Block,存在dataNode之上,dataNode上会有多个不同Block,相同Block存在于多个dataNode上。

对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。HDFS默认Block大小是128MB,以一个256MB文件,共有256/128=2个Block.

2、不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。Replication,多复本:默认情况下每个块有三个副本(hdfs-site.xml的dfs.replication属性),hadoop2.0默认block大小为128M,1.0为64M;

当其中某个Block副本丢失了(比如磁盘坏掉了),系统会自动复制其他节点上相同block到其他空闲的节点来增加一个副本;

3、Block的副本放置策略:

第一个副本:放在上传文件的dataNode上,如果是集群外提交则随机挑选一台磁盘不太满,cpu不太忙的节点上;

第二个副本:放在与第一个副本不同的机架的节点上,因为同一个机架上的节点共用一个电源,若电源断了,节点就都挂了;

第三个副本:放在与第二个副本相同机架的节点上;

更多副本:随机节点;

分享到:
评论

相关推荐

    Hadoop原理介绍

    Hadoop原理介绍生动详细的解说了HADOOP的基本原理 是HADOOP入门的必备

    hadoop-0.21.0-block_forensics.jar

    hadoop-0.21.0-block_forensics.jar

    hadoop-管理

    Hadoop_hbase 1.处理hadoop的datanode宕机 cd path/to/hadoop 走到hadoop的bin目录 ./hadoop-daemon.sh start datanode ./hadoop-daemon.sh start tasktracker 2.处理hadoop的namenode宕机 ./hadoop-daemon.sh ...

    HDFS block丢失,导致hadoop进入安全模式的解决方案

    HDFS block丢失hadoop进入安全模式(Safe mode)的解决方法

    hadoop多数据中心灾备

    The basis of this solution is to have one or more mirror Hadoop clusters which will be continuously updated with the data from the primary cluster in either a synchronous method or an asynchronous ...

    Hadoop的block Size和split Size究竟是什么关系_1

    1. block是物理上的数据分割,而split是逻辑上的分割 3. 用户可以在M/R 程序中自定义split size 4. 一个split 可以包含多个bl

    Hadoop的block Size和split Size究竟是什么关系-safari1

    1. block是物理上的数据分割,而split是逻辑上的分割 3. 用户可以在M/R 程序中自定义split size 4. 一个split 可以包含多个bl

    【IT十八掌徐培成】Hadoop第02天-06.hadoop本地目录修改-属性查看.zip

    【IT十八掌徐培成】Hadoop第02天-06.hadoop本地目录修改-属性查看.zip

    基于Hadoop的空间科学大数据的区域检索算法

    针对空间科学大数据的快速...基于Hadoop基础架构设计了NSSC-Hadoop系统,通过多组试验数据测试算法效率,并与直接基于Hadoop无索引遍历数据方式相比较,数据检索效率提高了将近50倍,随着数据量的增大,算法优势会更加明显。

    外网无法访问HDFS org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block

    报错 org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block 2、百度结果 参考 https://blog.csdn.net/xiaozhaoshigedasb/article/details/88999595  防火墙记得关掉; 查看DataNode是否启动;...

    Hadoop入门实战手册

    1.1 ..................................................................................................4 什么是Hadoop? 1.2 ................................................................................

    Data-intensive Systems: Principles and Fundamentals using Hadoop and Spark

    Data-intensive systems are a technological building block supporting Big Data and Data Science applications.This book familiarizes readers with core concepts that they should be aware of before ...

    高可用性的HDFS:Hadoop分布式文件系统深度实践

    1.4.1 Hadoop的元数据备份方案 1.4.2 Hadoop的SecondaryNameNode方案 1.4.3 Hadoop的Checkpoint ode方案 1.4.4 Hadoop的BackupNode方案 1.4.5 DRDB方案 1.4.6 FaceBook的AvatarNode方案 1.5 方案优缺点比较 第2章 ...

    hadoop-lzo-master.zip

    Hadoop经常用于处理大量的数据,如果期间的输出数据、中间数据能压缩存储,对系统的I/O性能会有提升。综合考虑压缩、解压速度、是否支持split,目前lzo是最好的选择。LZO(LZO是Lempel-Ziv-Oberhumer的缩写)是一种...

    Hadoop公平调度器指南.pdf

    与 Hadoop 默认调度器维护一个作业队列不同,这 个特性让小作业在合理的时间内完成的同时又不“饿”到消耗较长时间的大作业。它也是一 个在多用户间共享集群的简单方法。公平共享可以和作业优先权搭配使用——优先权...

    hadoop大数据实战手册

    3.4.3 Hadoop 纠删码概述…·…········· ·· ·· ····· ·· ····· · ··· · ······· ·· ….... . .. .…..... .. ....................... 147 3.4.4 纠删码技术在Hadoop 中的...

    Hadoop 3.0 纠删码技术详解

    存储布局方式3基于HDFS模块的扩展NameNode扩展块组依旧用类Block来表示一个块ID有64位这里将第1个位作为flag来区分块的类型如果为1则为EC块条形布局的EC块连续布局将在第二阶段考虑

    基于cloudera搭建hadoop集群

    11. 设置hadoop存储目录 11 12. 配置cm源文件 11 五. 安装 12 1. 安装cm 12 2. 安装cdh 22 六. 卸载 33 七. 参数调整 33 1. Mapreduce 33 2. Hdfs 34 3. Hbase 34 4. hive 35 5. Oozie 35 八. 常用命令 37 1. ...

Global site tag (gtag.js) - Google Analytics