当前位置：首页 > news >正文

HBase优化

news 来源：原创 2024/5/6 9:30:42

1.HBase表的RowKey设计

1.1.RowKey的基本介绍

1.2.RowKey长度原则

1.3.RowKey散列原则

1.4.RowKey唯一原则

1.5.RowKey排序原则

2.HBase表的热点

2.1.什么是热点

2.2.热点的解决方案

3.HBase的二级索引

4.布隆过滤器在HBase中的应用

HBase数据模型与整体架构：https://blog.csdn.net/qq_42029989/article/details/126604310

HBase原理深入：HBase原理深入_李嘉图呀李嘉图的博客-CSDN博客

1.HBase表的RowKey设计

1.1.RowKey的基本介绍

ASCII码字典顺序。

        012,0,123,234,3.
        0,3,012,123,234
        0,012,123,234,3

字典序的排序规则：先比较第一个字节，如果相同，然后比对第二个字节，以此类推，如果到第X个字节，其中一个已经超出了rowkey的长度，短rowkey排在前面。

1.2.RowKey长度原则

rowkey是一个二进制码流，可以是任意字符串，最大长度64kb，实际应用中一般为10-100bytes，以byte[]形式保存，一般设计成定长。

建议越短越好，不要超过16个字节，设计过长会降低 memstore内存的利用率和 HFile存储数据的效率。

1.3.RowKey散列原则

建议将rowkey的高位作为散列字段，这样将提高数据均衡分布在每个RegionServer，以实现负载均衡的几率。

1.4.RowKey唯一原则

必须在设计上保证其唯一性，访问hbase table中的行有3种方式：

单个rowkey
rowkey 的range
全表扫描(一定要避免全表扫描)

JAVA API 实现方式：

org.apache.hadoop.hbase.client.Get
scan方法： org.apache.hadoop.hbase.client.Scan

scan使用的时候注意：

setStartRow，setEndRow 限定范围，范围越小，性能越高。

1.5.RowKey排序原则

HBase的Rowkey是按照ASCII有序设计的，在设计Rowkey时要充分利用这点

2.HBase表的热点

2.1.什么是热点

检索hbse的记录首先要通过row key来定位数据行。当大量的client访问hbase集群的一个或少数几个节点，造成少数region server的读/写请求过多、负载过大，而其他region server负载却很
小，就造成了“热点”现象

2.2.热点的解决方案

预分区

预分区的目的让表的数据可以均衡的分散在集群中，而不是默认只有一个region分布在集群的一个节点上。

加盐

这里所说的加盐不是密码学中的加盐，而是在rowkey的前面增加随机数，具体就是给rowkey分配一个随机前缀以使得它和之前的rowkey的开头不同

哈希

哈希会使同一行永远用一个前缀加盐。哈希也可以使负载分散到整个集群，但是读却是可以预测的。使用确定的哈希可以让客户端重构完整的rowkey，可以使用get操作准确获取某一个行数据。

反转

反转固定长度或者数字格式的rowkey。这样可以使得rowkey中经常改变的部分（最没有意义的部分）放在前面。这样可以有效的随机rowkey，但是牺牲了rowkey的有序性。

3.HBase的二级索引

HBase表按照rowkey查询性能是最高的。rowkey就相当于hbase表的一级索引！！

为了HBase的数据查询更高效、适应更多的场景，诸如使用非rowkey字段检索也能做到秒级响应，或者支持各个字段进行模糊查询和多字段组合查询等，因此需要在HBase上面构建二级索
引，以满足现实中更复杂多样的业务需求。

hbase的二级索引其本质就是建立hbase表中列与行键之间的映射关系。

常见的二级索引我们一般可以借助各种其他的方式来实现，例如Phoenix或者solr或者ES等

4.布隆过滤器在HBase中的应用

布隆过滤器应用

hbase的读操作需要访问大量的文件，大部分的实现通过布隆过滤器来避免大量的读文件操作。

布隆过滤器的原理

通常判断某个元素是否存在用的可以选择hashmap。但是 HashMap 的实现也有缺点，例如存储容量占比高，考虑到负载因子的存在，通常空间是不能被用满的，而一旦你的值很多例如上亿
的时候，那 HashMap 占据的内存大小就变得很可观了。

Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。

hbase 中布隆过滤器来过滤指定的rowkey是否在目标文件，避免扫描多个文件。使用布隆过滤器来判断。

布隆过滤器返回true，存在结果不一定正确，如果返回false则说明确实不存在。

【论文笔记】Population Based Training of Neural Networks（PBT）

React之一些函数或者方法的扩展

普通人修谱必须读的三本书，最后一本市场买不到

巧妙简单的坑人代码，“巩固”你和好哥们的友谊【坏笑】

编译器的作用和构成（基础知识版）

【什么时候使用分类 Objective-C语言】

快速入门C++第七天——输入与输出

栈和队列及表达式求值问题

快速入门C++第六天——函数模板与类模板

gitlab自定义头像设置

新库上线 | CnOpenData采矿业工商注册企业基本信息数据

【Redis】基于Redis6的数据类型以及相关命令、应用场景整理

Qt使用qBreakpad定位崩溃位置

IAR+vscode开发环境搭建，千万别用，当心爱上

一些 Next Generation ABAP Platform 的新语法用例

es6(二)：字符串的扩展

iOS筛选菜单、分段选择器、导航栏、悬浮窗、转场动画、启动视频等源码

js对象的深浅拷贝

JS题目及答案整理

js作用域和this的理解

PAT A1092

quasar-framework cnodejs社区

React+TypeScript入门

tab.js分享及浏览器兼容性问题汇总

Vue全家桶实现一个Web App

程序员该如何有效的找工作?

用jquery写贪吃蛇

插件化DPI在商用WIFI中的价值

### Error querying database. Cause: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException

#《AI中文版》V3 第 1 章概述

%@ page import=%的用法

（1）(1.19) TeraRanger One/EVO测距仪

(42)STM32——LCD显示屏实验笔记

（C）一些题4

（二）Linux——Linux常用指令

（二十三）Flask之高频面试点

（附源码）计算机毕业设计SSM基于java的云顶博客系统

(原創) 物件導向與老子思想 (OO)

（转）mysql使用Navicat 导出和导入数据库

（转）大型网站的系统架构

（转）德国人的记事本

（总结）Linux下的暴力密码在线破解工具Hydra详解

***原理与防范

.NET 的静态构造函数是否线程安全？答案是肯定的！

.net 桌面开发运行一阵子就自动关闭_聊城旋转门家用价格大约是多少,全自动旋转门,期待合作...

.NET版Word处理控件Aspose.words功能演示：在ASP.NET MVC中创建MS Word编辑器

.net开源工作流引擎ccflow表单数据返回值Pop分组模式和表格模式对比

.考试倒计时43天！来提分啦！

/bin、/sbin、/usr/bin、/usr/sbin

/bin/bash^M: bad interpreter: No such file or directory

@CacheInvalidate(name = “xxx“, key = “#results.![a+b]“,multi = true)是什么意思

@javax.ws.rs Webservice注解

@media screen 针对不同移动设备

@我的前任是个极品微博分析

[ JavaScript ] JSON方法

1.HBase表的RowKey设计

1.1.RowKey的基本介绍

1.2.RowKey长度原则

1.3.RowKey散列原则

1.4.RowKey唯一原则

1.5.RowKey排序原则

2.HBase表的热点

2.1.什么是热点

2.2.热点的解决方案

3.HBase的二级索引

4.布隆过滤器在HBase中的应用

相关文章：