当前位置: 首页 > news >正文

HBase常识及HBbse适合什么场景

    当我们对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用使用什么数据库?答案是什么,如果我们使用的传统数据库,肯定留有多余的字段,10个不行,20个,但是这个严重影响了质量。并且如果面对大数据库,pt级别的数据,这种浪费更是严重的,那么我们该使用是什么数据库?HBase是个不错的选择,那么我们对于hbase还存在下列问题:

 

 

1.Column Family代表什么?
2.HBase通过row和column确定一份数据,这份数据的值可能有多个版本,为什么会存在多个版本?
3.查询的时候会显示那个版本?
4.它们的存储类型是什么?
5.tableName是什么类型?
6.RowKey 和 ColumnName是什么类型?
7.Timestamp 是什么类型?
8.value 是什么类型?

 

 

 

 

引言

  团队中使用HBase的项目多了起来,对于业务人员而言,通常并不需要从头搭建、维护一套HBase的集群环境,对于其架构细节也不一定要深刻理解(交由HBase集群维护团队负责),迫切需要的是快速理解基本技术来解决业务问题。最近在XX项目轮岗过程中,尝试着从业务人员视角去看HBase,将一些过程记录下来,期望对快速了解HBase、掌握相关技术来开展工作的业务人员有点帮助。我觉得作为一个初次接触HBase的业务开发测试人员,他需要迫切掌握的至少包含以下几点:
深入理解HTable,掌握如何结合业务设计高性能的HTable
掌握与HBase的交互,反正是离不开数据的增删改查,通过HBase Shell命令及Java Api都是需要的
掌握如何用MapReduce分析HBase里的数据,HBase里的数据总要分析的,用MapReduce是其中一种方式
掌握如何测试HBase MapReduce,总不能光写不管正确性吧,debug是需要的吧,看看如何在本机单测debug吧



本系列将围绕以上几点展开,篇幅较长,如果是HBase初学者建议边读边练,对于HBase比较熟练的,可以选读下,比如关注下HBase的MapReduce及其测试方法。

 

 

从一个示例说起
  传统的关系型数据库想必大家都不陌生,我们将以一个简单的例子来说明使用RDBMS和HBase各自的解决方式及优缺点。
以博文为例,RDBMS的表设计如下:

 

 

 

为了方便理解,我们以一些数据示例下

 

 

 

上面的例子,我们用HBase可以按以下方式设计

 

 

 

同样为了方便理解,我们以一些数据示例下,同时用红色标出了一些关键概念,后面会解释

 

 

 

 

HTable一些基本概念


Row key
  行主键, HBase不支持条件查询和Order by等查询,读取记录只能按Row key(及其range)或全表扫描,因此Row key需要根据业务来设计以利用其存储排序特性(Table按Row key字典序排序如1,10,100,11,2)提高性能。


Column Family(列族)
  在表创建时声明,每个Column Family为一个存储单元。在上例中设计了一个HBase表blog,该表有两个列族:article和author。


Column(列)
  HBase的每个列都属于一个列族,以列族名为前缀,如列article:title和article:content属于article列族,author:name和author:nickname属于author列族。
Column不用创建表时定义即可以动态新增,同一Column Family的Columns会群聚在一个存储单元上,并依Column key排序,因此设计时应将具有相同I/O特性的Column设计在一个Column Family上以提高性能。同时这里需要注意的是:这个列是可以增加和删除的,这和我们的传统数据库很大的区别。所以他适合非结构化数据。

 

Timestamp
  HBase通过row和column确定一份数据,这份数据的值可能有多个版本,不同版本的值按照时间倒序排序,即最新的数据排在最前面,查询时默认返回最新版本。如上例中row key=1的author:nickname值有两个版本,分别为1317180070811对应的“一叶渡江”和1317180718830对应的“yedu”(对应到实际业务可以理解为在某时刻修改了nickname为yedu,但旧值仍然存在)。Timestamp默认为系统当前时间(精确到毫秒),也可以在写入数据时指定该值。


Value
  每个值通过4个键唯一索引,tableName+RowKey+ColumnKey+Timestamp=>value,例如上例中{tableName=’blog’,RowKey=’1’,ColumnName=’author:nickname’,Timestamp=’ 1317180718830’}索引到的唯一值是“yedu”。

 

 

存储类型
  TableName 是字符串
  RowKey 和 ColumnName 是二进制值(Java 类型 byte[])
  Timestamp 是一个 64 位整数(Java 类型 long)
  value 是一个字节数组(Java类型 byte[])。

 

存储结构
可以简单的将HTable的存储结构理解为

 

 


即HTable按Row key自动排序,每个Row包含任意数量个Columns,Columns之间按Column key自动排序,每个Column包含任意数量个Values。理解该存储结构将有助于查询结果的迭代。

 

 

 

话说什么情况需要HBase
  1、半结构化或非结构化数据
对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用HBase。以上面的例子为例,当业务发展需要存储author的email,phone,address信息时RDBMS需要停机维护,而HBase支持动态增加.

  2、记录非常稀疏
RDBMS的行有多少列是固定的,为null的列浪费了存储空间。而如上文提到的,HBase为null的Column不会被存储,这样既节省了空间又提高了读性能。

  3、多版本数据
如上文提到的根据Row key和Column key定位到的Value可以有任意数量的版本值,因此对于需要存储变动历史记录的数据,用HBase就非常方便了。比如上例中的author的Address是会变动的,业务上一般只需要最新的值,但有时可能需要查询到历史值。
  4、超大数据量

   当数据量越来越大,RDBMS数据库撑不住了,就出现了读写分离策略,通过一个Master专门负责写操作,多个Slave负责读操作,服务器成本倍增。随着压力增加,Master撑不住了,这时就要分库了,把关联不大的数据分开部署,一些join查询不能用了,需要借助中间层。随着数据量的进一步增加,一个表的记录越来越大,查询就变得很慢,于是又得搞分表,比如按ID取模分成多个表以减少单个表的记录数。经历过这些事的人都知道过程是多么的折腾。采用HBase就简单了,只需要加机器即可,HBase会自动水平切分扩展,跟Hadoop的无缝集成保障了其数据可靠性(HDFS)和海量数据分析的高性能(MapReduce)。

 


个人认为:
Column Family代表什么?
Column Family(列族)
HBase通过row和column确定一份数据,这份数据的值可能有多个版本,为什么会存在多个版本?
查询的时候会显示那个版本?
保证数据不被修改,查询时总是显示最新版本。

 

 


本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/5481256.html,如需转载请自行联系原作者

相关文章:

  • postfix+extmail+extman实现虚拟用户邮件系统(2)
  • 轻巧的网络流量实时监控工具NTOPNG
  • 坐标序列hdu 1003 解题报告 ---- Max Sum
  • 产品设计体会(2012)另一种产品版本细分策略
  • SuperSocket 1.6 beta1 发布,新增进程级别隔离
  • 程序包管理rpm、quota、磁盘配额
  • nullnullH - Happy Programming Contest
  • [20180312]进程管理其中的SQL Server进程占用内存远远大于SQL server内部统计出来的内存...
  • ubuntu解压命令
  • 帮助你格式化console.log输出的javascript类库 - Log
  • php-fpm常用配置
  • nginx主配置文件详解及优化
  • 我拿什么来爱你?AIGO P8860 MID详细评测 【PART I】
  • 微博特征与行为的大数据挖掘分析
  • 路由基础概念解析
  • 分享的文章《人生如棋》
  • 【技术性】Search知识
  • 【跃迁之路】【641天】程序员高效学习方法论探索系列(实验阶段398-2018.11.14)...
  • android图片蒙层
  • DataBase in Android
  • eclipse(luna)创建web工程
  • ECMAScript入门(七)--Module语法
  • exif信息对照
  • Golang-长连接-状态推送
  • input的行数自动增减
  • iOS编译提示和导航提示
  • Java 网络编程(2):UDP 的使用
  • Laravel 中的一个后期静态绑定
  • LintCode 31. partitionArray 数组划分
  • ng6--错误信息小结(持续更新)
  • Python - 闭包Closure
  • vuex 学习笔记 01
  • Webpack 4 学习01(基础配置)
  • 关于 Cirru Editor 存储格式
  • 关于List、List?、ListObject的区别
  • 力扣(LeetCode)965
  • 利用jquery编写加法运算验证码
  • 实现菜单下拉伸展折叠效果demo
  • 实战:基于Spring Boot快速开发RESTful风格API接口
  • 要让cordova项目适配iphoneX + ios11.4,总共要几步?三步
  • 优秀架构师必须掌握的架构思维
  • 与 ConTeXt MkIV 官方文档的接驳
  • 《码出高效》学习笔记与书中错误记录
  • UI设计初学者应该如何入门?
  • #我与Java虚拟机的故事#连载17:我的Java技术水平有了一个本质的提升
  • (五)关系数据库标准语言SQL
  • (一)Dubbo快速入门、介绍、使用
  • (转)视频码率,帧率和分辨率的联系与区别
  • ./configure,make,make install的作用(转)
  • ./indexer: error while loading shared libraries: libmysqlclient.so.18: cannot open shared object fil
  • .dwp和.webpart的区别
  • .FileZilla的使用和主动模式被动模式介绍
  • .net 4.0发布后不能正常显示图片问题
  • .NET CORE 2.0发布后没有 VIEWS视图页面文件
  • .net core IResultFilter 的 OnResultExecuted和OnResultExecuting的区别