hbase中的缓存分了两层:memstore和blockcache。
其中memstore供写使用,写请求会先写入memstore,regionserver会给每个region提供一个memstore,当memstore满64MB以后,会启动flush刷新到磁盘。当memstore的总大小超过限制时(heapsize * hbase.regionserver.global.memstore.upperLimit * 0.9),会强行启动flush进程,从最大的memstore开始flush直到低于限制。
blockcache主要提供给读使用。读请求先到memstore中查数据,查不到就到blockcache中查,再查不到就会到磁盘上读,并把读的结果放入blockcache。由于blockcache是一个LRU,因此blockcache达到上限(heapsize * hfile.block.cache.size * 0.85)后,会启动淘汰机制,淘汰掉最老的一批数据。
一个regionserver上有一个blockcache和N个memstore,它们的大小之和不能大于等于heapsize * 0.8,否则hbase不能启动。默认blockcache为0.2,而memstore为0.4。对于注重读响应时间的系统,应该将blockcache设大些,比如设置blockcache=0.4,memstore=0.39。这会加大缓存命中率。
分享到:
相关推荐
在 CDH5.3.2 中的 Key-Value Indexer 使用的是 Lily HBase NRT Indexer 服务. Lily HBase Indexer 是一款灵活的、可扩展的、高容错的、事务性的,并且近实时的处理 HBase 列索引数据的分布式服务软件。它是 NGDATA ...
基于Flink+SpringBoot+Hbase的商品实时推荐系统源码+全部资料齐全 flink统计商品热度,放入redis缓存,分析日志信息,将画像标签和实时记录放入Hbase在用户发起推荐请求后,根据用户画像重排序热度榜,并结合协同...
该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! <项目介绍> 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! ...
2-hbase)中,又主要分为6个Flink任务:用户-产品浏览历史->实现基于协同过滤的推荐逻辑通过Flink去记录用户浏览过这个类目下的某些产品,为后面的基于项目的协同过滤做准备实时的记录用户的评分到Hbase中,为后续...
由canal 监听到Mysql的binlog 后加载到Kafka,再由Kafka流入Flink和ClickHouse,Flink做用户行为的实时计算,ClickHouse做离线计算,支持动态数据分区与规则配置(Flink广播流),支持类与Jar文件的动态编译与动态...
Spark SQL 是 Spark 框架中的一个组件,支持直接查询 hive 中的数据,使用 SQL 进行复制的数据分析。 Spark 的组件包括 MLlib、GraphX 和 Spark R 等,MLlib 是一个机器学习库,GraphX 是一个图形处理库,Spark R ...
根据煤矿安全生产业务需求及智慧矿山发展要求,新型的煤矿数据中心需满足对同一时空坐标体系下煤矿海量、多元数据的高效处理、缓存、计算、存储与发布。针对传统煤矿数据中心各类数据离散存储,数据集成、业务应用及...
将UID缓存更改为从整数中取出并添加命中和未命中计数器。 修复HighestCurrent返回错误的结果。 将运行查询统计信息queryStart时间戳修复为millis。 修复TimeShift毫秒错误。 修复debian包中的post删除步骤。
PostgreSQL 在哈啰的实践周飞 ...物理库(PostgreSQL)集群是哈啰单车的核心数据库管理系统,Redis 集群用于缓存数据,消息队列用于处理消息,ES 和 HBase 用于数据分析和存储,LBS 用于处理空间数据和 GIS 计算。
答案:HBase中的所有数据⽂件都存储在Hadoop HDFS⽂件系统上,主要包括上述提出的两种⽂件类型: HFile,HBase中KeyValue数据的存储格式,HFile是Hadoop的⼆进制格式⽂件,实际上StoreFile就是对HFile做了轻量级...
技术点26 在HDFS、MapReduce、Pig 和Hive 中使用数据压缩 技术点27 在MapReduce、Hive 和Pig 中处理可分割的LZOP 5.3 本章小结 6 诊断和优化性能问题 6.1 衡量MapReduce 和你的环境 6.1.1 提取作业统计...
4.RDD与DataFrame转换 5.数据分析SQL和DSL 6.案例:电影评分数据分析 7.DataSet 8.外部数据源Exeternal DataSource 9.集成Hive 10.自定义函数UDF 11.分布式SQL引擎(spakr-sql和Spark ThriftServer) 12.Catalyst ...
4.4 本章小结5 优化HDFS 处理大数据的技术5.1 处理小文件技术点24 使用Avro 存储大量小文件5.2 通过压缩提高数据存储效率技术点25 选择合适的压缩解码器技术点26 在HDFS、MapReduce、Pig 和Hive 中使用...
147_使用hbasesink收集日志到hbase数据库 148_内存通道配置6 U/ X5 L3 ]7 b6 `5 x 149_source的通道选择器-复制策略-multiplexing 150_source的数据流程 151_sinkgroup的处理器-loadbalance- ^6 B0 j4 Z5 f9 d 152_...
在MapReduce中使用压缩 序列化 Writable接口 Writable类 实现定制的Writable类型 序列化框架 Avro 依据文件的数据结构 写入SequenceFile MapFile 第5章 MapReduce应用开发 配置API 合并多个源文件 可变的扩展 配置...
在MapReduce中使用压缩 序列化 Writable接口 Writable类 实现定制的Writable类型 序列化框架 Avro 依据文件的数据结构 写入SequenceFile MapFile 第5章 MapReduce应用开发 配置API 合并多个...
数据采集传输 这个一般对应于公司的日志平台,任务是将数据采集后缓存在某个地方,供后续的计算 流程进行消费使用。 针对不同的数据来源有各自的采集方式,从 APP/效劳器 日志,到业务表,还有各种 API 接口及数据...
Hadoop中是包含计算框架MapReduce和分布式文件系统HDFS,更广泛的讲是还包含其生态系统上的其他系统比如Hbase和Hive等。 Spark相比MapReduce的优点: 1.中间结果的输出 (1)MapReduce的话计算结果会产生很多stage,...
Flink由于其现在运行的环境,美团选择的是OnYARN模式,除了计算引擎之外,我们还提供一些实时存储功能,用于存储计算的中间状态、计算的结果、以及维度数据等,目前这一类存储包含Hbase、Redis以及
HBase、分布式缓存 Redis、消息队列 Kafka、分布式协作服务 Zookeeper 等。 大数据云的数据交换共享平台架构探索的目的是为了解决数据孤岛问题,即不同团队各自建设、各个应用内数据没有打通的问题。该平台架构探索...