对于0.94版本来说,有几个地方会发生检验
(1)HFile (HRegionServer里面)
(2)FSInputChecker (DFSClient里面)
DFSClient :
非本地读取,通过DataNode读取,RemoteBlockReader
Disk -> DataNode -> DFSClient(RemoteBlockReader) -> HFile (HRegionServer)
Disk -> DataNode -> DFSClient(RemoteBlockReader) -> HLog (HRegionServer)
本地读取,BlockReaderLocal
Disk -> DFSClient(BlockReaderLocal) -> HFile (HRegionServer)
Disk -> DFSClient(BlockReaderLocal) -> HLog (HRegionServer)
其中:RemoteBlockReader 和 BlockReaderLocal 都继承自FSInputChecker
HFileSystem:里面有两个FileSystem实例 一个是 fs,一个是 FileSystem noChecksumFs; // read hfile data from storage
(1) noChecksumFs 用于HFile
(2) fs 可以用于HLog、以及其他文件
目前0.94.1以及之前的版本noChecksumFs 和 fs 使用相同的配置(configuration),只有verifyChecksum不同
support checksums in HBase block cache
public static final String HBASE_CHECKSUM_VERIFICATION =
"hbase.regionserver.checksum.verify";
默认为true,所以HRegionServer通过DFSClient读取到HFile的数据后会进行检验。
通过DataNode读取(RemoteBlockReader)是否检验由 DistributedFileSystem.verifyChecksum 来决定
本地读取,DFSClient直接读取文件,是否检验由 public static final String DFS_CLIENT_READ_SHORTCIRCUIT_SKIP_CHECKSUM_KEY
= "dfs.client.read.shortcircuit.skip.checksum"; 来决定
如果DFS_CLIENT_READ_SHORTCIRCUIT_KEY = "dfs.client.read.shortcircuit";设置为true,并且DataNode是local的,那么DFSClient会先跟DataNode通信获取block的path,然后自己直接读取block(本地读取,BlockReaderLocal)。
Skip checksum is broke; are we double-checksumming by default?
分享到:
相关推荐
使用Hadoop HDFS作为文件存储系统、HBase作为数据存储仓库,采用SpringMVC+Spring框架实现,包括用户注册与登录、我的网盘、关注用户 毕业设计是高等教育阶段学生在完成学业前所进行的一项重要学术任务,旨在检验...
026 分类+离群点检测-李申浩 027 关联规则和分类-李申浩 028 分类-李申浩 029 聚类-李申浩 030 聚类和数据仓库介绍-李申浩 031 分类算法应用场景实例1-李申浩 032 分类算法应用场景实例2-李申浩 033 分类算法...
存储模块:搭建和配置HDFS分布式存储系统,并Hbase和MySQL作为备用方案。 ETL模块:加载原始数据,清洗,加工,为模型训练模块 和 推荐模块 准备所需的各种数据。 模型训练模块:负责产生模型,以及寻找最佳的模型...
流程:图片 => sift特征点检测及描述符提取 => 特征点进行编码,获得图片的bovw特征向量 => 插入HBase 代码:insertTables.py, sift.py - HBase表 - ***dbinfo: { 'rowid': { 'file': [ 'path':(...), 'data':...
大数据概述部分主要考查了大数据的基本概念、特征、发展阶段、思维转变、计算模式等基础...总的来说,这份试卷知识点饱满,难度适中,比较全面系统地检验了大数据处理的方方面面,可以检测考生对这一领域的全面掌握程度。
3. HBase部分着重考查了HBase作为分布式NoSQL数据库的数据模型、架构设计、基本概念和shell命令操作。 4. MapReduce部分主要考查了MapReduce这一分布式计算模型的原理、编程实现和与传统并行计算框架的区别。 5. ...
10.6.3 AMSDS:恶意软件签名自动检测 324 10.6.4 CloudSEC:协作安全服务体系结构 325 习题 327 参考文献 327 第11章 总结与展望 332 11.1 主流商业云计算解决方案比较 332 11.1.1 应用场景 332 11.1.2 使用流程 334...
如何将关系型数据库中存储的数据导入HDFS,以及从HDFS中将数据导入关系型数据库。 如何将分析好的数据通过图形展示给用户。 5.1 日志收集 339 5.1.1 inotify机制 339 5.1.2 ActiveMQ-CPP 343 5.1.3 架构...
该方法将变电站在线监测所收集的海量变电设备在线监测数据冗余存储在Hadoop分布式文件系统(HDFS)中,对在线监测数据的索引表结构进行优化,并存储在分布式结构化数据库(HBase)中,实现海量在线监测数据的快速...
HDFS的HA共识检测和处理损坏的块的过程实木复合地板和立柱式货架备用名称节点vs备用名称节点Hadoop生态系统구성요소별分区의의미 Hadoop生态系统中的“分区”是什么? 什么是MapReduce溢出? vm.swappiness vm....
库本身不依赖于硬件来提供高可用性,而是被设计用来检测和处理应用程序层的故障,因此可以在计算机集群的顶部提供高可用性的服务,而每台计算机都容易出现故障。 该项目包括以下模块: Hadoop通用:支持其他Hadoop...
9.2.1. 检测系统是否自带安装mysql 30 9.2.2. 下载yum包 30 9.2.3. 安装mysql 30 9.2.4. 启动服务 30 9.2.5. 设置root密码 30 9.2.6. 设置开机自启 31 9.2.7. mysql安全设置 31 9.2.8. 创建数据库 31 9.2.9. 创建...