当前位置: 首页 > news >正文

「阅读」数据密集型系统设计 第六章 分区

文章目录

  • 6.1 介绍
  • 6.2 如何实现分区?
    • 6.2.1 键值数据分区
    • 6.2.2 分区和次级索引
      • 次级索引的分区问题
      • 方案一:基于文档的分区-本地索引
      • 方案二:基于关键词的分区-全局索引
    • 6.2.3 分区再平衡问题 && 解决方案
      • 问题介绍
      • 策略一:hash && Mod N(不推荐)
      • 策略二:固定数量分区
      • 策略三:动态分区
      • 策略四:按照节点比例分区

6.1 介绍

  1. 什么是分区?
    分区是通过特定列的值将数据划分为逻辑独立的部分,每个分区是一个数据子集。
    常见的可以用于分区的维度:时间、地理位置、类别等
  2. 分区的好处?
    1. 提高查询性能:只扫描某个表而不是整张表
    2. 提高管理和维护数据的能力:数据通过某个维度进行组织。
  3. 为什么有分区技术?
    分区技术的初衷:针对海量数据场景,提高获取/更新数据的性能
    分区技术和可伸缩性契合。

6.2 如何实现分区?

6.2.1 键值数据分区

目标

将数据和查询负载均匀分布到各个节点中。

方案一:随机分配
随机分配可以保证负载均衡,但是当读取一个特定值时,无法知道该值在那个分区,只能遍历全表。

方案二:根据键的范围分区
定义:每个分区定义一个最小值和最大值。
优点:

  1. 查询时可以找到迅速找到分区
    缺点:
  2. 数据分布无法保证均匀,可能会导致某个(些)分区成为“热点”

方案三:散列(hash)分区–一致性哈希算法
优点:

  1. 可以公平的分配键,负载比较均衡
    缺点:
  2. 范围查询性能没有提升

6.2.2 分区和次级索引

次级索引的分区问题

当前数据库,例如 mysql、oracle 中,分区键中必须是主键的一部分,因此主键是可以快速定位到分区的。

但是次级索引列和分区键可能是两个不同的列,通过次级索引列的每次操作,就需要对所有数据进行操作。
参考资料:mysql 分区键为什么必须是主键的一部分

方案一:基于文档的分区-本地索引

在这里插入图片描述

这种索引优点:

  • 每个分区完全独立,只需要处理当前分区中的信息

缺点

  • 不会将某种特定的 key 放在一起(color 所有数据),导致搜索时必须全表扫描

应用的数据库如 MongoDB、Elasticsearch 等。

方案二:基于关键词的分区-全局索引

在这里插入图片描述

构建一个覆盖所有分区数据的全局索引。全局索引也不可以放在一个节点上,需要进行分区。

优点:

  • 读取效率更高

缺点:

  • 写入速度慢 && 复杂
  • 需要跨分区的事务

6.2.3 分区再平衡问题 && 解决方案

问题介绍

随时间推移,数据库以下情况都需要数据 && 请求从一个节点转移到另一个节点种,将负载从一个节点转移到另一个节点的过程称为再平衡

  • 查询吞吐量增加
  • 数据集大小增加
  • 机器故障

再平衡目标:

  • 负载应该公平
  • 再平衡进行中,服务可用
  • 节点间移动的数据应该尽量少

策略一:hash && Mod N(不推荐)

策略执行:先对 key 进行 hash,对结果通过 mod n 分区。

节点数量 n 增加时,大量原有数据必须迁移,成本过大。

策略二:固定数量分区

分区数量 > 节点数量,每个节点分配多个分区。

![[Pasted image 20240824224624.png]]

优点:

  • 分区在节点种移动
  • 分区总数不变
    缺点:
  • 无法很好的评估分区数量

策略三:动态分区

采用关键字区间分区的数据库,如果边界设置有问题,可能导致数据倾斜到一个分区中。

  • 按键的范围进行分区的数据库(如HBase和RethinkDB)会动态创建分区。
  • 当分区增长到超过配置的大小时(在HBase上,默认值是10GB),会被分成两个分区,每个分区约占一半的数据。
  • 与之相反,如果大量数据被删除并且分区缩小到某个阈值以下,则可以将其与相邻分区合并。此过程与B树顶层发生的过程类似。
    优点:
  • 分区数量适应总数据量
    缺点:
  • 空数据库从 1 个分区开始,导致所有写入必须单个节点处理,其他节点空闲。

策略四:按照节点比例分区

动态分区和固定数量的分区,分区数量都与节点数量无关。
Cassandra和Ketama使用的第三种方法是使分区数与节点数成正比:每个节点有固定数量的分区。

  • 当节点数不变,分区大小与数据集大小成比例增长;
  • 当节点数改变,分区大小将变小。

操作方式:

  • 当一个新节点加入集群时,它随机选择固定数量的现有分区进行拆分,然后占有这些拆分分区中每个分区的一半,同时将每个分区的另一半留在原地。
  • 随机化可能会产生不公平的分割,但是平均在更大数量的分区上时,新节点最终从现有节点获得公平的负载份额。
  • 随机选择分区边界要求使用基于散列的分区(可以从散列函数产生的数字范围中挑选边界)。实际上,这种方法最符合一致性哈希的原始定义。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 基于STM32开发的智能水箱液位控制系统
  • Tina-SDK开发
  • NVIDIA超分辨率开启详细教程
  • 【Redis】哈希类型详解及缓存方式对比:从命令操作到实际应用场景
  • 欧拉函数.
  • SCI论文系统各阶段状态含义,一文带你全面掌握!告别投稿小白!
  • Pandas_merge_join
  • 【IoT】将各类遥控器(红外,频射,蓝牙,wifi,Zigbee)等设备接入米家,实现家庭物联网设备控制(以极米Z7X投影仪为例)
  • 【C#】去掉字符串中的第一或最后一位
  • unity 使用Sqlite报错
  • LLama3本地部署安装
  • DevEco Studio 预览器报错踩坑
  • 二进制协议集合
  • 基于springmvc实现文件上传
  • 常见虚拟现实硬件设备及特点
  • 《剑指offer》分解让复杂问题更简单
  • angular2 简述
  • angular2开源库收集
  • AngularJS指令开发(1)——参数详解
  • happypack两次报错的问题
  • Lsb图片隐写
  • MySQL主从复制读写分离及奇怪的问题
  • Protobuf3语言指南
  • Spark VS Hadoop:两大大数据分析系统深度解读
  • Unix命令
  • Vultr 教程目录
  • weex踩坑之旅第一弹 ~ 搭建具有入口文件的weex脚手架
  • 测试开发系类之接口自动化测试
  • 成为一名优秀的Developer的书单
  • 机器学习中为什么要做归一化normalization
  • 紧急通知:《观止-微软》请在经管柜购买!
  • 前端自动化解决方案
  • 前嗅ForeSpider教程:创建模板
  • 微信端页面使用-webkit-box和绝对定位时,元素上移的问题
  • 应用生命周期终极 DevOps 工具包
  • 策略 : 一文教你成为人工智能(AI)领域专家
  • ​软考-高级-系统架构设计师教程(清华第2版)【第9章 软件可靠性基础知识(P320~344)-思维导图】​
  • #我与Java虚拟机的故事#连载16:打开Java世界大门的钥匙
  • (23)Linux的软硬连接
  • (35)远程识别(又称无人机识别)(二)
  • (done) 两个矩阵 “相似” 是什么意思?
  • (Redis使用系列) Springboot 使用Redis+Session实现Session共享 ,简单的单点登录 五
  • (分布式缓存)Redis哨兵
  • (附源码)spring boot儿童教育管理系统 毕业设计 281442
  • (附源码)ssm本科教学合格评估管理系统 毕业设计 180916
  • (南京观海微电子)——示波器使用介绍
  • (原創) 如何讓IE7按第二次Ctrl + Tab時,回到原來的索引標籤? (Web) (IE) (OS) (Windows)...
  • (源码分析)springsecurity认证授权
  • .bat批处理(十):从路径字符串中截取盘符、文件名、后缀名等信息
  • .NET Core 中的路径问题
  • .NET Core跨平台微服务学习资源
  • .NET Remoting Basic(10)-创建不同宿主的客户端与服务器端
  • .Net 访问电子邮箱-LumiSoft.Net,好用
  • .NET/C# 使用反射注册事件
  • .net分布式压力测试工具(Beetle.DT)