hbase中的缓存的计算与使用 - 蓝色时分 - ITeye博客

`

lc_koven

浏览: 349881 次
性别:
来自: 杭州

最近访客更多访客>>

<苍狼>

gaoming1990

libisthanks

m635674608

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

penkee：为何我启动 zookKeeper bookie 10 不能创 ...
bookkeeper安装及测试体验
Golden-jin： 1楼也好时髦呀
bookkeeper简单分析
xGss2000：要是减少到300个 region，block就0.04s了。话 ...
多region下的hbase写入问题
brandom520：请问lz,我从hbase0.94版本上的数据导入到0.96.1 ...
在不同版本hdfs集群之间转移数据
huanghaifeng1990：您好，我想请问一下，我执行了会发生OOM溢出的Deflater ...
perftools查看堆外内存并解决hbase内存溢出

hbase中的缓存的计算与使用

博客分类：

hbase

阅读更多

hbase中的缓存分了两层：memstore和blockcache。

其中memstore供写使用，写请求会先写入memstore，regionserver会给每个region提供一个memstore，当memstore满64MB以后，会启动flush刷新到磁盘。当memstore的总大小超过限制时（heapsize * hbase.regionserver.global.memstore.upperLimit * 0.9），会强行启动flush进程，从最大的memstore开始flush直到低于限制。

blockcache主要提供给读使用。读请求先到memstore中查数据，查不到就到blockcache中查，再查不到就会到磁盘上读，并把读的结果放入blockcache。由于blockcache是一个LRU,因此blockcache达到上限(heapsize * hfile.block.cache.size * 0.85)后，会启动淘汰机制，淘汰掉最老的一批数据。

一个regionserver上有一个blockcache和N个memstore，它们的大小之和不能大于等于heapsize * 0.8，否则hbase不能启动。默认blockcache为0.2，而memstore为0.4。对于注重读响应时间的系统，应该将blockcache设大些，比如设置blockcache=0.4，memstore=0.39。这会加大缓存命中率。

分享到：

hbase写入性能影响续 | 看facebook分享hbase经验的笔记

2011-04-13 20:20
浏览 8296
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hbase 二级索引方案: 在 CDH5.3.2 中的 Key-Value Indexer 使用的是 Lily HBase NRT Indexer 服务. Lily HBase Indexer 是一款灵活的、可扩展的、高容错的、事务性的，并且近实时的处理 HBase 列索引数据的分布式服务软件。它是 NGDATA ...

基于Flink实现的商品实时推荐系统 flink统计商品热度，放入redis缓存分析日志信息，将画像标签和实时记录放入Hbase: 该资源内项目源码是个人的毕设，代码都测试ok，都是运行成功后才上传资源，答辩评审平均分达到96分，放心下载使用！ <项目介绍> 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ ...

flink-recommandSystem-demo:基于Flink实现的商品实时推荐系统。flink统计商品热度，放入redis缓存，分析日志信息，将头像标签和实时记录放入Hbase。在用户发起推荐请求后，根据用户画像重排序热度榜，并结合协同过滤和标签两个推荐模块为新生成的榜单的每一个产品添加关联产品，最后返回新的用户列表: 2-hbase）中，又主要分为6个Flink任务：用户-产品浏览历史->实现基于协同过滤的推荐逻辑通过Flink去记录用户浏览过这个类目下的某些产品，为后面的基于项目的协同过滤做准备实时的记录用户的评分到Hbase中，为后续...

基于flink的电商实时数据分析、推荐、风控项目java源码+项目使用说明.zip: 由canal 监听到Mysql的binlog 后加载到Kafka，再由Kafka流入Flink和ClickHouse，Flink做用户行为的实时计算，ClickHouse做离线计算，支持动态数据分区与规则配置（Flink广播流），支持类与Jar文件的动态编译与动态...

Spark分布式内存计算框架视频教程: 4.RDD与DataFrame转换 5.数据分析SQL和DSL 6.案例：电影评分数据分析 7.DataSet 8.外部数据源Exeternal DataSource 9.集成Hive 10.自定义函数UDF 11.分布式SQL引擎（spakr-sql和Spark ThriftServer） 12.Catalyst ...

基于Hadoop的煤矿数据中心架构设计: 根据煤矿安全生产业务需求及智慧矿山发展要求，新型的煤矿数据中心需满足对同一时空坐标体系下煤矿海量、多元数据的高效处理、缓存、计算、存储与发布。针对传统煤矿数据中心各类数据离散存储，数据集成、业务应用及...

opentsdb-2.4.0.tar.gz: 将UID缓存更改为从整数中取出并添加命中和未命中计数器。修复HighestCurrent返回错误的结果。将运行查询统计信息queryStart时间戳修复为millis。修复TimeShift毫秒错误。修复debian包中的post删除步骤。

完结26章Java主流分布式解决方案多场景设计与实战: java中常用的分布式方法有哪些呢？分布式系统分布式存储:GFS,HDFS(HBase) 分布式计算系统: MapReduce 消息中间件: Kafka 分布式处理管理器: Zookeeper RocketMQ ：负载均衡技术分布式缓存技术: Redis 分布式锁 ...

4399大数据笔试题.pdf: 答案：HBase中的所有数据⽂件都存储在Hadoop HDFS⽂件系统上，主要包括上述提出的两种⽂件类型： HFile，HBase中KeyValue数据的存储格式，HFile是Hadoop的⼆进制格式⽂件，实际上StoreFile就是对HFile做了轻量级...

Hadoop硬实战 [（美）霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载带书签目录高清完整版.rar ): 技术点26　在HDFS、MapReduce、Pig 和Hive 中使用数据压缩技术点27　在MapReduce、Hive 和Pig 中处理可分割的LZOP 5．3　本章小结 6　诊断和优化性能问题 6．1　衡量MapReduce 和你的环境 6．1．1　提取作业统计...

Hadoop实战(第2版): 4．4　本章小结5　优化HDFS 处理大数据的技术5．1　处理小文件技术点24　使用Avro 存储大量小文件5．2　通过压缩提高数据存储效率技术点25　选择合适的压缩解码器技术点26　在HDFS、MapReduce、Pig 和Hive 中使用...

2017最新大数据架构师精英课程: 147_使用hbasesink收集日志到hbase数据库 148_内存通道配置6 U/ X5 L3 ]7 b6 `5 x 149_source的通道选择器-复制策略-multiplexing 150_source的数据流程 151_sinkgroup的处理器-loadbalance- ^6 B0 j4 Z5 f9 d 152_...

Hadoop权威指南（中文版）2015上传.rar: 在MapReduce中使用压缩序列化 Writable接口 Writable类实现定制的Writable类型序列化框架 Avro 依据文件的数据结构写入SequenceFile MapFile 第5章 MapReduce应用开发配置API 合并多个源文件可变的扩展配置...

Hadoop权威指南第二版(中文版): 　在MapReduce中使用压缩　序列化　Writable接口　Writable类　实现定制的Writable类型　序列化框架　Avro 　依据文件的数据结构　写入SequenceFile 　MapFile 第5章 MapReduce应用开发　配置API 　合并多个...

大数据中台架构栈.doc: 数据采集传输这个一般对应于公司的日志平台，任务是将数据采集后缓存在某个地方，供后续的计算流程进行消费使用。针对不同的数据来源有各自的采集方式，从 APP/效劳器日志，到业务表，还有各种 API 接口及数据...

spark学习笔记一: Hadoop中是包含计算框架MapReduce和分布式文件系统HDFS，更广泛的讲是还包含其生态系统上的其他系统比如Hbase和Hive等。 Spark相比MapReduce的优点： 1.中间结果的输出（1）MapReduce的话计算结果会产生很多stage，...

Flink在美团平台的实践与应用: Flink由于其现在运行的环境，美团选择的是OnYARN模式，除了计算引擎之外，我们还提供一些实时存储功能，用于存储计算的中间状态、计算的结果、以及维度数据等，目前这一类存储包含Hbase、Redis以及

WiFiProbeAnalysis:基于WIFI探针的商业大数据分析技术: 系统核心，负责实时计算以及离线计算主要技术或API：名称解释 Spark 分析程序核心API Hadoop 分析程序核心API Mybatis 操作Mysql的API SharedJedis 分布式Redis的API Log4j 日志记录工具 Accumulator 累加器，...

大数据开源框架集锦.pdf: 可视化的UI界⾯中⽅便地管理配置和监控Hadoop以及其它所有相关组件简单来说将⼗⼏个hadoop开源项⽬集成在⼀起 HDP 基于hadoop⽣态系统开源组件构建的⼤数据分析平台 2 集群管理与监控 Cloudera Manager ⽤于部署和...

TDengine32:软件开源版本的是64位的，结果我想在家里32位吃土机上用。花了点时间看了看代码发现不完美。详细链接https: 什么是TDengine？ TDengine是下的一个开源大数据平台，... 时间序列数据的完整堆栈：通过将具有消息队列，缓存和流计算功能的数据库集成在一起，不再需要集成Kafka / Redis / HBase / Spark或其他软件。它使系统架构更

Global site tag (gtag.js) - Google Analytics