当前位置: 首页 > news >正文

Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版思维导图第四章 HBase分布式数据库

  • 第四章 HBase分布式数据库

    • 1、HBase概述

      • HBase的技术特点

        • 容量大。

          • 当关系数据库的单个表的记录在亿级时,则查询和写入的性能都会呈现指数级下降,而HBase对于单表存储百亿或更多的数据都没有性能问题。

        • 表结构不固定。

          • 可以根据需要动态的增加列,同一张表中不同的行可以有截然不同的列。

        • 列式存储。

          • 列存储指的是数据在表中是按照列存储的,可动态地增加列,并且可以单独对列进行各种操作。

        • 稀疏性。

          • 空列并不占用存储空间,表可以非常稀疏。

        • 数据类型单一。

          • HBase中的数据都是字符串。

      • HBase与传统关系数据库的区别

        • 1.数据类型方面

          • 关系数据库具有丰富的数据类型,如字符串型、数值型、日期型、二进制型等。HBase只有字符串数据类型,数据的实际类型都是交由用户自己编写程序对字符串进行解析的。

        • 2.数据操作方面

          • 关系数据库包含了丰富的操作,如插入、删除、更新、查询等,其中还涉及各式各样的函数和连接操作。HBase只有很简单的插入、查询、删除、清空等操作,表和表之间是分离的。

        • 3.存储模式方面

          • 关系数据库是基于行存储的,在关系数据库中读取数据时,需要顺序扫描每个元组,然后从中筛选出所需要查询的属性。HBase是基于列存储的,HBase将列划分为若干个列族,每个列族都由几个文件保存,不同列族的文件时分离的,它的优点是:可以降低IO开销,支持大量并发用户查询,仅需要处理所要查询的列,不需要处理与查询无关的大量数据列。

        • 4.数据维护方面

          • 在关系数据库中,更新操作会用最新的当前值去替换元组中原来的旧值。而HBase执行的更新操作不会删除数据旧的版本,而是添加一个新的版本,旧的版本仍然保留。

        • 5.可伸缩性方面

          • HBase分布式数据库就是为了实现灵活的水平扩展而开发的,所以它能够轻松增加或减少硬件的数量来实现性能的伸缩。而传统数据库通常需要增加中间层才能实现类似的功能,很难实现横向扩展,纵向扩展的空间也比较有限。

      • HBase与Hadoop中其他组件的关系

        • HBase作为Hadoop生态系统的一部分,一方面它的运行依赖于Hadoop生态系统中的其他组件;另一方面,HBase又为Hadoop生态系统的其他组件提供了强大的数据存储和处理能力。

    • 2、HBase系统架构和数据访问流程

      • 系统架构

        • HBase采用MasterlSlave架构,由HMaster服务器、HRegionServer服务器和ZooKeeper协同服务器构成。在底层,HBase将数据存储于HDFS中。HBase系统架构如图所示。

        • 1.客户端

          • 客户端包含访问HBase的接口,同时在缓存中维护着已经访问过的HRegion位置信息,用来加快后续数据访问过程。

        • 2.Zookeeper服务器

          • Zookeeper服务器用来为HBase集群提供稳定可靠的协同服务,Zookeeper存储了-ROOT-表的地址和HMaster的地址,客户端通过-ROOT-表可找到自己所需的数据。

        • 3.HMaster服务器

          • 每台HRegionServer都会和HMaster服务器通信。

          • HMaster服务器的主要任务就是告诉每个HRegionServer它主要维护哪些HRegion。

          • HMaster用于

            • 协调多个HRegionServer,

            • 侦测各个HRegionServer的状态,

            • 负责分配HRegion给HRegionServer,

            • 平衡HRegionServer之间的负载。

        • 4.HRegionServer

          • 维护HMaster分配给它的HRegion,

          • 处理用户对这些Hegion的I/O请求,

          • 还负责切分在运行过程中变得过大的HRegion。

          • 内部管理了一系列HRegion对象

            • 每个HRegion对应了表(Table)中的一个Region。

          • HBase表根据Row Key的范围被水平拆分成若干个HRegion。每个HRegion都包含了这个HRegion的start key和end key之间的所有行((row) 。

      • 数据访问流程

        • -ROOT-表

          • -ROOT-表是一张存储.META,表的表,记录了.META,表的HRegion信息。

        • .META.表

        • 假设要从Table2里面查询一条Row Key是RK10000的数据,那么应该遵循以下步骤:

          • ①从.META.表里面查询哪个HRegion包含这条数据。 ②获取管理这个HRegion的HRegionServer地址。 ③连接这个HRegionServer,查到这条数据。

    • 3、HBase数据表

      • 逻辑视图

        • 1.行键(Row Key)

        • 2.列族( Column Family)和列名(Column Name )

          • HBase表中的每个列都归属于某个列族,列族必须作为表模式(Schema)定义的一部分预先定义。在每个列族中,可以存放很多的列,而每行每列族中列的数量可以不相同。

        • 3.单元格(Cell)

          • 在HBase表中,通过行键、列族和列名确定一个“单元格”(Cell)。每个单元格中可以保存一个字段数据的多个版本,每个版本对应一个不同的时间戳

        • 4.时间戳(Time Stamp)

        • 5.区域

      • HBase数据表物理视图

        • 在HBase表的逻辑视图层面,HBase中的每个表是由许多行组成的。

        • 但在物理存储层面,它是采用基于列的存储方式。

          • 可简单认为每个Column Family对应一张存储表,表格的Row Key、Column Family .Column Name、Time Stamp唯一确定一条记录。

    • 4、HBase安装

    • 5、HBase配置

    • 6、HBase的Shell操作

      • 基本命令

        • 1.获取帮助help

        • 2.查看服务器状态status

        • 3.查看当前用户whoami

        • 4.命名空间相关命令

          • (1)列出所有命名空间命令list_namespace

          • (2)创建命名空间命令create namespace

          • (3)查看命名空间命令describe_namespace

          • (4)创建表命令create

          • (5)列出指定命名空间下的所有表命令 list_namespace_tables

          • (6〉使表无效命令disable

          • (7)删除表命令drop

          • (8)删除命名空间命令drop namespace

      • 创建表

        • 在关系数据库中,需要首先创建数据库,然后再创建表,但在HBasc数据库中,不需要创建数据库,可直接创建表。HBase创建表的语法格式如下:

        • create<表名称>,<列族名称1>[,'列族名称2'...]

        • HBase中的表至少要有一个列族,列族直接影响HBasc数据存储的物理特性。

      • 插入与更新表中的数据

        • put<表名>,<行键>,<列族名:列名>,<值>[,时间戳]

        • 例如给表student添加数据:行键是0001,列族名是baseInfo,列名是Sname,值是ding。

          • put 'student, '0001,'baseInfo:Sname','ding'

      • 查看表中的数据

        • 1.查询某行数据get

        • 2.浏览表中全部数据scan

      • 删除表中的数据

        • delete命令用于删除一个单元格数据

        • deleteall命令用于删除一行数据

        • truncate命令用于删除表中的所有数据

      • 表的启用/禁用

        • enable和disable可以启用/禁用表

        • is_enabled和is_disabled来检查表是否被禁用。

      • 修改表结构

        • 修改表结构必须先禁用表。

          • disable 'student'#禁用student表

        • 1.添加列族alter '表名',列族名'

        • 2删除列族 alter '表名',{NAME=>'列族名',METHOD => 'delete'}

          • alter 'student',{NAME=> 'teacherInfo',METHOD => 'delete"}

      • 删除HBase表

        • 第一步禁用表,第二步删除表。

        • disable 'student’#禁用student表

        • drop 'student'#删除student表

    • 7、HBase的Java API操作

相关文章:

  • 如何在苹果手机上安装iOS应用的.ipa文件?
  • 世链空投|izumi空投代撸是什么意思?为什么选择izumi空投代撸
  • 243. 一个简单的整数问题2(线段树,懒标记,树状数组,《算法竞赛进阶指南》)
  • MoCo 算法阅读记录
  • Linux:自动化构建 - make
  • 全国水科技大会 免费征集《水环境治理减污降碳协同增效示范案例》
  • 使用阿里云试用Elasticsearch学习:2.1 深入搜索——结构化搜索
  • 解决前端笔记本电脑屏幕显示缩放比例125%、150%对页面大小的影响问题
  • Vite 项目中环境变量的配置和使用
  • 如何判断服务器的线路
  • 【通过虚拟现实:让我们对危险更敏感】
  • Win11 使用 WSL2 安装 linux 子系统 ubuntu
  • 虚幻引擎启动报错记录
  • 如何使用 React 构建跑马灯组件
  • 6种xinput1_3.dll丢失的解决办法,并探讨xinput1_3.dll丢失的原因及其属性。
  • 分享一款快速APP功能测试工具
  • 【每日笔记】【Go学习笔记】2019-01-10 codis proxy处理流程
  • 4月23日世界读书日 网络营销论坛推荐《正在爆发的营销革命》
  • angular2 简述
  • Apache Pulsar 2.1 重磅发布
  • express如何解决request entity too large问题
  • iOS小技巧之UIImagePickerController实现头像选择
  • JavaScript类型识别
  • Java到底能干嘛?
  • java第三方包学习之lombok
  • mockjs让前端开发独立于后端
  • MySQL主从复制读写分离及奇怪的问题
  • nginx 配置多 域名 + 多 https
  • Quartz初级教程
  • Redis 懒删除(lazy free)简史
  • Vim Clutch | 面向脚踏板编程……
  • weex踩坑之旅第一弹 ~ 搭建具有入口文件的weex脚手架
  • 不发不行!Netty集成文字图片聊天室外加TCP/IP软硬件通信
  • 简单易用的leetcode开发测试工具(npm)
  • 开源中国专访:Chameleon原理首发,其它跨多端统一框架都是假的?
  • 坑!为什么View.startAnimation不起作用?
  • 利用阿里云 OSS 搭建私有 Docker 仓库
  • 前端之Sass/Scss实战笔记
  • 收藏好这篇,别再只说“数据劫持”了
  • 新书推荐|Windows黑客编程技术详解
  • kubernetes资源对象--ingress
  • 第二十章:异步和文件I/O.(二十三)
  • ​【已解决】npm install​卡主不动的情况
  • ​ubuntu下安装kvm虚拟机
  • #Linux(权限管理)
  • (1)Map集合 (2)异常机制 (3)File类 (4)I/O流
  • (C语言)输入一个序列,判断是否为奇偶交叉数
  • (vue)页面文件上传获取:action地址
  • (二)换源+apt-get基础配置+搜狗拼音
  • (附源码)springboot码头作业管理系统 毕业设计 341654
  • (附源码)springboot助农电商系统 毕业设计 081919
  • (切换多语言)vantUI+vue-i18n进行国际化配置及新增没有的语言包
  • (三) prometheus + grafana + alertmanager 配置Redis监控
  • (四)c52学习之旅-流水LED灯
  • (转)机器学习的数学基础(1)--Dirichlet分布