当前位置: 首页 > news >正文

redis面试(三)Hash数据结构

HASH

哈希,在redis底层实现的时候,数据的结构叫做dict

这个Dict就是一个用于维护key和value映射关系的数据结构,与很多语言中的Map类型相似。

本质上也是一个数组+链表的形式存在,不同的点在于,每个dict中是可以存在两个(数组+链表)形式的哈希表。

就是为了在扩容的时候避免一次性对所有的key进行重哈希计算操作,而是将重哈希操作分散到之后每次的增删改查中。 这样一来,每次重哈希的时候也不影响单个请求,与redis“快速相响应时间”的设计原则是相符的。

结构

dict为了实现增量式重哈希,在数据结构里面包含两个哈希表。重哈希期间,也就是扩容时候,将数据从第一个哈希表向第二个哈希表迁移。

包含的结构类型有三种,从大到小的结构类型依次是:
dict -> dictht -> dictEntry

具体的结构定义如下:

dict

哈希本身的包装类,也就是我们操作的Hash

typedef struct dict {dictType *type; // 类型特性的函数,保存了操作特定类型kv的函数void *privdata;	// 私有数据,传递给类型特定函数的可选的参数dictht ht[2];	// 哈希表,两个dictht哈希表,默认就用一个,另外一个是在rehash(扩容)的时候用的,ht[0]->在使用的hashtable,ht[1]->备用的hashtableint trehashidx;	// rehash索引,默认是-1,因为没有进行rehash
}

dictht

真正的hash表

typedef struct dictht {dictEntry **table;	// 数组,放我们的一个一个的key-value对,就是放在数组里unsigned long size; // 数组大小unsigned long sizemask; // 掩码,根据key hash计算数组里面的索引值,size-1unsigned long used; // 已有的节点数量
} dictht;

dictEntry

key-value 键值结构对,并且里面包含链表的指针

typedef struct dictEntry {void *key; // key值union { // value值void *val;uint64_tu64;int64_ts64;
} v;struct dictEntry *next; // 指向下一个节点,单向链表结构,解决hash冲突问题的
} dictEntry;

dictType

这个结构严格上来说,并不是dict本身数据结构的一部分,而是一些封装好的操作方法

typedef struct dictType {// hash方法,根据关键字计算哈希值unsigned int (*hashFunction)(const void *key);// 复制keyvoid *(*keyDup)(void *privdata, const void *key);// 复制valuevoid *(*valDup)(void *privdata, const void *obj);// 关键字比较方法int (*keyCompare)(void *privdata, const void *key1, const void *key2);//  销毁keyvoid (*keyDestructor)(void *privdata, void *key);// 销毁valuevoid (*valDestructor)(void *privdata, void *obj);} dictType;

结构总结

  • 一个dict中,会包含两个dictht(dict hash table)
  • dictht中会包含所有的 dictEntry(键值对)
  • 两个dictht在扩容的时候会用到第二个

hash计算

hash = dict->tpe->hashFunction(key); // Mermerhash2,是hash值的计算算法
index = hash & dict->ht[0].sizemask; // hash值跟hashtable的sizemask掩码,做一个二进制与运算,算出来的结果,一定是数组->size->范围内的一个数字,掩码=size-1,算出来一定是最大也就是size-1

hash冲突

冲突是hash表常见的一个问题,数组大小是固定的,不同的key,key多个,不同的,但是不同的key算出来的hash值也是不同的,不同的hash值算出来的数组里的index位置,有可能是一样的

但是一直往里面写入key的时候,很可能会有一个问题,那就是不同的key,但是算出来的index索引是一样的,这就是key冲突问题了,这个时候就得基于dictEntry的单向链表,来挂载一个位置的多个key了

数组扩容

如果要是放的数据太多了,数组放不下了,这就得扩容,扩容的时候,每个key都得重新计算索引位置了,这就是rehash,扩容的时候,ht[1]就是新的一个哈希表,他的大小是第一个大于等于ht[0].used * 2的2n次方,如果是缩容,那就是第一个大于等于ht[0].used的2n次方

ht[0].used = 15 * 2 = 30,找到第一个大于等于30的2n次方,2的5次方=32,32就是我们的下一次要扩容的数组大小

搞了一个新hash表以后,就可以把ht[0]里的所有key都rehash到ht[1]里了,崇安计算索引值,解决key冲突问题,全部迁移完毕之后,就会释放掉ht[0]了,把ht[1]设置为ht[0],然后在ht[1]创建空的hash表

rehash扩容缩容的触发

如果说同一个位置,他的元素的个数实在是太多了,单向链表太长了,hget的时候,key,hash,index,一下子发现这个数组那里,那个位置,单向链表实在是太长了,O(n)时间复杂度,去遍历单向链表,一个一个去寻找这个key

老hashtable放的数据太多了,多到一定程度了,就会触发rehash,多到多少才会去触发rehash呢?
触发rehash是跟负载因子有关系的,这个负载因子计算公式是,已有节点数量/哈希表数组大小,就是load_factor = ht[0].used / ht[0].size,当我们的负载因子达到一定的程度的时候,就会触发rehash动作

如果要是redis没有执行rdb和aof的持久化动作,redis负载不会太高,可控一些,此时一直到负载因子为1,就进行rehash扩容,也就是数组满了再说;但是如果rdb和aof再执行动作,这个时候只要负载因子超过5,这意思就是说,rdb和aof执行的过程中,你就别扩容了

rdb和aof执行的时候,是要开子进程来执行的,很耗费内存和cpu,所以这个时候,就要避免进行hash表扩容了,此时无非就是说,很多写入都是用单向链表挂再一个位置就行了,没问题的

渐进式迁移

如果负载因子小于0.1了,就要对hash表进行收缩操作,扩容也好,缩容也把,对于ht[1]的新size的计算公式,都给大家讲过了,当你创建好了一个ht[1]之后,迁移,渐进式的迁移机制来做的

另外就是说,在rehash的时候,如果hash表里数据太多了,你要一下子执行rehash,会导致负载太高,对性能有影响,所以此时不是一下子全部进行rehash的,一下子rehash的数量太多了,会导致负载很高,redis服务器的性能,不对的,是渐进式的,分批次,逐步的执行rehash动作

hashidx默认是-1,改为0以后就开始rehash了,每次执行hash表操作,就会把index=n的所有元素迁移到ht[1]里去,然后hashidx++,这样随着你不停的执行hash表操作,就会逐步的把ht[0]各个索引位置的元素迁移到ht[1]里去了,一直到所有元素都迁移完毕,然后就会把rehashidx改为-1

在rehash期间,新的hash操作,都是针对ht[1]写入的,同时迁移ht[0],在读取的时候,会在ht[0]里找一下,找不到再去ht[1]里找,这就ok了

负载因子触发rehash,新数组的size计算公式,rehashidx渐进式迁移

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Linux--Socket编程TCP
  • LIMS实验室管理系统的三大分类
  • Python自学第五天
  • 计算机毕业设计选题推荐-学院教学工作量统计系统-Java/Python项目实战
  • 【C++】用Lua绑定C/C++对象,实现对脚本调用(依赖LuaBridge实现)
  • Hello 算法:动画图解、一键运行的数据结构与算法教程
  • MySQL的面试题,从简单到困难三道题目
  • 【计算机网络】DHCP实验
  • Windows下编译安装Kratos
  • 用Python来DIY一个AI面部情绪识别API的简单方案
  • Spark+实例解读
  • 安全服务面试
  • java调用WebService接口
  • centos7 docker空间不足
  • 项目经理面试总结
  • 《微软的软件测试之道》成书始末、出版宣告、补充致谢名单及相关信息
  • 【Amaple教程】5. 插件
  • CNN 在图像分割中的简史:从 R-CNN 到 Mask R-CNN
  • Java程序员幽默爆笑锦集
  • leetcode98. Validate Binary Search Tree
  • linux学习笔记
  • mongo索引构建
  • node.js
  • Node.js 新计划:使用 V8 snapshot 将启动速度提升 8 倍
  • PAT A1092
  • 诡异!React stopPropagation失灵
  • 基于阿里云移动推送的移动应用推送模式最佳实践
  • 计算机常识 - 收藏集 - 掘金
  • 如何优雅的使用vue+Dcloud(Hbuild)开发混合app
  • 如何在GitHub上创建个人博客
  • 我的zsh配置, 2019最新方案
  • 学习笔记DL002:AI、机器学习、表示学习、深度学习,第一次大衰退
  • 在GitHub多个账号上使用不同的SSH的配置方法
  • 【运维趟坑回忆录】vpc迁移 - 吃螃蟹之路
  • LIGO、Virgo第三轮探测告捷,同时探测到一对黑洞合并产生的引力波事件 ...
  • MyCAT水平分库
  • #LLM入门|Prompt#2.3_对查询任务进行分类|意图分析_Classification
  • #我与Java虚拟机的故事#连载11: JVM学习之路
  • (42)STM32——LCD显示屏实验笔记
  • (Redis使用系列) Springboot 在redis中使用BloomFilter布隆过滤器机制 六
  • (二)WCF的Binding模型
  • (三十五)大数据实战——Superset可视化平台搭建
  • (四)图像的%2线性拉伸
  • (转)菜鸟学数据库(三)——存储过程
  • (转载)OpenStack Hacker养成指南
  • (转载)从 Java 代码到 Java 堆
  • (轉貼) 寄發紅帖基本原則(教育部禮儀司頒布) (雜項)
  • .NET 某和OA办公系统全局绕过漏洞分析
  • .NET 中 GetProcess 相关方法的性能
  • .Net(C#)常用转换byte转uint32、byte转float等
  • .net遍历html中全部的中文,ASP.NET中遍历页面的所有button控件
  • .NET基础篇——反射的奥妙
  • .Net面试题4
  • .NET设计模式(7):创建型模式专题总结(Creational Pattern)
  • [20140403]查询是否产生日志