当前位置: 首页 > news >正文

【C++深度探索】哈希表介绍与实现

🔥 个人主页:大耳朵土土垚
🔥 所属专栏:C++从入门至进阶

这里将会不定期更新有关C/C++的内容,欢迎大家点赞,收藏,评论🥳🥳🎉🎉🎉

文章目录

  • 1. 哈希概念
  • 2. 哈希冲突
    • ✨哈希冲突原因
  • 3. 解决哈希冲突
    • ✨闭散列
    • ✨开散列
  • 4. 结语

1. 哈希概念

  在顺序结构以及平衡树中,元素值与其存储位置之间没有对应的关系,因此在查找一个元素时,必须要经过元素值的多次比较。其中顺序结构查找的时间复杂度为O(N),平衡树中查找的复杂度为为树的高度,即O( l o g 2 N log_2 N log2N),搜索的效率取决于搜索过程中元素的比较次数。

  而理想的搜索方法是可以不经过任何比较,一次直接从表中得到要搜索的元素。这就要借助我们的哈希函数。

  如果能构造一种存储结构,通过某种函数(hashFunc)使元素的存储位置与它的值之间能够建立一 一映射的关系,那么在查找时通过该函数可以很快找到该元素的位置。

  C++中的哈希(hash)就是一种将任意大小的数据映射为固定大小值的函数。这样我们就可以直接根据元素的值通过哈希映射找到它的存储位置了。

哈希函数将输入数据转化为哈希值,这个哈希值通常是一个整数,用来表示原始数据。通过将数据的哈希值与存储空间进行映射,可以使得数据的存储和访问更加高效。


例如:

  • 数据集合{1,7,6,4,5,9};
  • 我们将哈希函数设置为:hash(key) = key % capacity; capacity为存储元素底层空间总的大小。
  • 这样我们就可以将数据集合的值通过哈希函数得到它存储的位置存储到容器中:

数据1通过哈希函数得到它的存储位置是1,就存储到容器位置为1的地方


  该方式即为哈希(散列)方法,哈希方法中使用的转换函数称为哈希(散列)函数,构造出来的结构称为哈希表(Hash Table)(或者称散列表)

✨插入元素:
  根据待插入元素的关键码,以此函数计算出该元素的存储位置并按此位置进行存放。

✨搜索元素:
  对要搜索的元素的关键码进行同样的计算,把求得的函数值当做元素的存储位置,在结构中按此位置取元素比较,若关键码相等,则搜索成功。


用该方法进行搜索不必进行多次关键码的比较,因此搜索的速度比较快。


2. 哈希冲突


  如果按照上述哈希方式,向集合中插入元素11,我们就会发现与之前插入元素1的位置发生冲突,这就叫哈希冲突,即不同关键字通过相同哈希哈数计算出相同的哈希地址,该种现象称为哈希冲突或哈希碰撞。

  把具有不同关键码而具有相同哈希地址的数据元素称为“同义词”。

✨哈希冲突原因

 引起哈希冲突的一个原因可能是:哈希函数设计不够合理。

 哈希函数设计原则:

  • 哈希函数的定义域必须包括需要存储的全部关键码,而如果散列表允许有m个地址时,其值域必须在0到m-1之间;
  • 哈希函数计算出来的地址能均匀分布在整个空间中;
  • 哈希函数应该比较简单

 常见哈希函数:

  1. 直接定址法–(常用)

  取关键字的某个线性函数为散列地址:Hash(Key)= A*Key + B

  • 优点:简单、均匀
  • 缺点:需要事先知道关键字的分布情况
  • 使用场景:适合查找比较小且连续的情况
  1. 除留余数法–(常用)

  设散列表中允许的地址数为m,取一个不大于m,但最接近或者等于m的质数p作为除数,按照哈希函数:Hash(key) = key% p(p<=m),将关键码转换成哈希地址。

  1. 平方取中法–(了解)

  假设关键字为1234,对它平方就是1522756,抽取中间的3位227作为哈希地址;再比如关键字为4321,对它平方就是18671041,抽取中间的3位671(或710)作为哈希地址。平方取中法比较适合:不知道关键字的分布,而位数又不是很大的情况。

  1. 折叠法–(了解)

  折叠法是将关键字从左到右分割成位数相等的几部分(最后一部分位数可以短些),然后将这几部分叠加求和,并按散列表表长,取后几位作为散列地址。折叠法适合事先不需要知道关键字的分布,适合关键字位数比较多的情况。

  1. 随机数法–(了解)

  选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key) = random(key),其中random为随机数函数。通常应用于关键字长度不等时采用此法。

  1. 数学分析法–(了解)

  设有n个d位数,每一位可能有r种不同的符号,这r种不同的符号在各位上出现的频率不一定相同,可能在某些位上分布比较均匀,每种符号出现的机会均等,在某些位上分布不均匀只有某几种符号经常出现。可根据散列表的大小,选择其中各种符号分布均匀的若干位作为散列地址。数字分析法通常适合处理关键字位数比较大的情况,如果事先知道关键字的分布且关键字的若干位分布较均匀的情况。

注意:哈希函数设计的越精妙,产生哈希冲突的可能性就越低,但是无法避免哈希冲突

3. 解决哈希冲突


  解决哈希冲突两种常见的方法是:闭散列开散列

✨闭散列

  闭散列也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,那么可以把key存放到冲突位置中的“下一个” 空位置中去。

  我们可以使用线性探测和二次探测这两种方法找到“下一个” 空位置。

  • 线性探测:从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置为止。

  例如前面的哈希表中插入元素11,先通过哈希函数计算哈希地址,hashAddr为1,因此11理论上应该插在该位置1,但是该位置已经放了值为1的元素,即发生哈希冲突。然后我们就可以从发生冲突的位置开始,依次向后探测,直到寻找到下一个空位置2插入与元素11即可:


 代码如下:

// 哈希函数采用除留余数法
template<class K>
struct HashFunc
{size_t operator()(const K& key){return (size_t)key;}
};// 以下采用开放定址法,即线性探测解决冲突
namespace open_address
{enum State{EXIST,EMPTY,DELETE};template<class K, class V>struct HashData{pair<K, V> _kv;State _state = EMPTY;};template<class K, class V, class Hash = HashFunc<K>>class HashTable{public:HashTable(){_tables.resize(10);}bool Insert(const pair<K, V>& kv){//1.先找是否已经插入过相同的值if (Find(kv.first))return false;//2.判断是否需要扩容//如果已经插入了70%就扩容if (_n * 10 / _tables.size() >= 7){HashTable<K, V> h;h._tables.resize(2 * _tables.size());for (auto& e : _tables){if(e._state==EXIST)h.Insert(e._kv);}_tables.swap(h._tables);}//3.通过Hash函数找到插入位置Hash hs;size_t addr = hs(kv.first) % _tables.size();//4.通过插入位置的状态来插入		while (_tables[addr]._state == EXIST){addr++;addr %= _tables.size();}_tables[addr]._kv = kv;_tables[addr]._state = EXIST;_n++;return true;}HashData<K, V>* Find(const K& key){//先找到key对应的Hash值Hash hs;size_t ht = hs(key) % _tables.size();while (_tables[ht]._state != EMPTY){if(_tables[ht]._state == EXIST && _tables[ht]._kv.first == key)return &_tables[ht];++ht;ht %= _tables.size();//防止越界访问}return nullptr;}bool Erase(const K& key){//1.先找到删除的位置HashData<K, V>* phd = Find(key);if (phd == nullptr)return false;//2.删除,将该节点的状态设成删除即可phd->_state = DELETE;_n--;return true;}private:vector<HashData<K, V>> _tables;size_t _n = 0;  // 表中存储数据个数};

因为上述哈希表是使用数组来实现的,删除一个数据是将该位置的状态置成DELETE状态,我们不能简单的置为EMPTY,这是因为查找时,如果该位置是空状态我们没办法确定后面有没有值,因为该位置可能被删除了,后面可能还存了值,所以需要DELETE状态;如果查找时状态为DELETE就需要继续往后查找,直到找到或者出现状态为EMPTY时就没找到。

对于插入函数,当插入的数据占总容量70%时就需要进行扩容

线性探测优点:实现非常简单
线性探测缺点:一旦发生哈希冲突,所有的冲突连在一起,容易产生数据“堆积”,即:不同
关键码占据了可利用的空位置,使得寻找某关键码的位置需要许多次比较,导致搜索效率降
低。


  • 二次探测:通过使用一个二次函数来计算下一个探测位置,例如: h ( k , i ) = ( h ( k ) + c 1 ∗ i + c 2 ∗ i 2 ) m o d M h(k,i) = (h(k) + c1 * i + c2 * i^2) mod M h(k,i)=(h(k)+c1i+c2i2)modM其中h(k)为元素的哈希值,i为探测序列号,c1和c2是用于探测的常数,M是哈希表的大小。通过不断增加i的值,可以在哈希表中依次探测下一个位置,直到找到一个空槽或者遍历完所有槽。

线性探测的缺陷是产生冲突的数据堆积在一块,这与其找下一个空位置有关系,因为找空位置的方式就是挨着往后逐个去找,因此二次探测为了避免该问题,二次探测与线性探测类似,这里就不实现


总之,闭散列最大的缺陷就是空间利用率比较低,这也是哈希的缺陷。

✨开散列

  开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。

如下图所示:


从上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素。

实现代码如下:

// 哈希函数采用除留余数法
template<class K>
struct HashFunc
{size_t operator()(const K& key){return (size_t)key;}
};// 哈希表中支持字符串的操作
template<>
struct HashFunc<string>
{size_t operator()(const string& key){size_t hash = 0;for (auto e : key){hash *= 31;hash += e;}return hash;}
};//哈希桶类
namespace hash_bucket
{template<class K, class V>struct HashNode{pair<K, V> _kv;HashNode<K, V>* _next;HashNode(const pair<K, V>& kv):_kv(kv), _next(nullptr){}};template<class K,class V, class Hash = HashFunc<K>>class HashTable {public:typedef HashNode<K,V> Node;HashTable(){_tables.resize(10,nullptr);}~HashTable(){// 依次把每个桶释放for (size_t i = 0; i < _tables.size(); i++){Node* cur = _tables[i];while (cur){Node* next = cur->_next;delete cur;cur = next;}_tables[i] = nullptr;}}bool Insert(const pair<K, V>& kv){//1.先找是否已经插入过相同的值if (Find(kv.first))return false;Hash hs;//2.判断是否需要扩容//如果负载因子为1就扩容if (_n ==  _tables.size()){HashTable<K, V> h;h._tables.resize(2 * _tables.size(),nullptr);//只需要将哈希桶插入即可for (size_t i = 0; i < _tables.size(); i++){Node* cur = _tables[i];while (cur){size_t hash = hs(cur->_kv.first) % h._tables.size();Node* Next = cur->_next;cur->_next = h._tables[hash];h._tables[hash] = cur;cur = Next;}_tables[i] = nullptr;}_tables.swap(h._tables);}//3.通过Hash函数找到插入位置size_t addr = hs(kv.first) % _tables.size();//4.头插到新表if (_tables[addr] == nullptr)//如果是空,_n就需要++_n++;Node* newnode = new Node(kv);newnode->_next = _tables[addr];_tables[addr] = newnode;return true;}Node* Find(const K & key){//先找到key对应的Hash值Hash hs;size_t ht = hs(key) % _tables.size();Node* cur = _tables[ht];while (cur){if (cur->_kv.first == key)return cur;cur = cur->_next;}return nullptr;}bool Erase(const K & key){//1.先找到删除的位置Hash hs;size_t ht = hs(key) % _tables.size();Node* cur = _tables[ht];Node* parent = nullptr;while (cur){if (cur->_kv.first == key)break;parent = cur;cur = cur->_next;}if (cur == nullptr)return false;//2.删除对应节点if (parent)parent->_next = cur->_next;else_tables[ht] = cur->_next;//修改_nif (_tables[ht] == nullptr)_n--;//3.释放原节点delete cur;return true;}private:vector<Node*> _tables;size_t _n;//记录存储数据的位置个数};

哈希桶的实现与上述线性探测类似,但是哈希桶不再使用状态来标记位置,而是使用链表的一个一个节点,插入就开辟一个新的节点,删除就释放旧节点;同样哈希桶如果满了也需要扩容,所以哈希桶类中也有一个内置类型_n来记录存储数据的位置个数;最后因为使用的是链表的节点,所以析构需要将节点一个一个释放才不会造成内存泄漏。


✨开散列与闭散列比较:

  应用链地址法处理溢出,需要增设链接指针,似乎增加了存储开销。事实上:由于开放定址法必须保持大量的空闲空间以确保搜索效率,如二次探查法要求装载因子a <= 0.7(也就是空间占用率小于等于0.7),而表项所占空间又比指针大的多,所以使用链地址法反而比开地址法节省存储空间。


4. 结语


  在C++中,哈希(Hash)是一种常用的数据结构技术,用于将数据转换为固定长度的哈希值。哈希值是唯一的,可以用于快速查找、比较和索引。以上就是今天所有的内容啦 ~ 完结撒花 ~ 🥳🎉🎉

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 并查集-应用方向以及衍生汇总+代码实现(c++)-学习一个数据结构就会做三类大题!
  • 【QT常用技术讲解】多线程处理+全局变量处理异步事件并获取多个线程返回的结果
  • 【区块链+金融服务】广东省区域性股权市场区块链创新服务平台 | FISCO BCOS应用案例
  • git用法
  • 《Unity3D高级编程 主程手记》第四章 用户界面(六) UI 优化(上)
  • MySQL事务深度讲解
  • Unity + HybridCLR 从零开始
  • 第二十四天学习笔记2024.8.8
  • 十、OpenCVSharp 中的图像的几何变换
  • 普通人看清房价走势的简单方法
  • 根据《中华人民共和国无障碍环境建设法》规定,有关无障碍停车位的表述,下列说法错误的是。
  • sdkman的安装使用
  • 孜然网址导航系统源码分享
  • AspNetCore 给SwaggerUI加上登录保护功能
  • HTML+CSS+JS计算器
  • IE9 : DOM Exception: INVALID_CHARACTER_ERR (5)
  • Elasticsearch 参考指南(升级前重新索引)
  • java B2B2C 源码多租户电子商城系统-Kafka基本使用介绍
  • JAVA SE 6 GC调优笔记
  • JavaScript设计模式与开发实践系列之策略模式
  • oldjun 检测网站的经验
  • Redis 中的布隆过滤器
  • RxJS: 简单入门
  • Spring Cloud中负载均衡器概览
  • vue中实现单选
  • 更好理解的面向对象的Javascript 1 —— 动态类型和多态
  • 基于Android乐音识别(2)
  • 检测对象或数组
  • 使用putty远程连接linux
  • 一道面试题引发的“血案”
  • LevelDB 入门 —— 全面了解 LevelDB 的功能特性
  • 京东物流联手山西图灵打造智能供应链,让阅读更有趣 ...
  • ​HTTP与HTTPS:网络通信的安全卫士
  • ​queue --- 一个同步的队列类​
  • #define、const、typedef的差别
  • #多叉树深度遍历_结合深度学习的视频编码方法--帧内预测
  • #微信小程序:微信小程序常见的配置传旨
  • $ git push -u origin master 推送到远程库出错
  • %@ page import=%的用法
  • (06)Hive——正则表达式
  • (20050108)又读《平凡的世界》
  • (9)目标检测_SSD的原理
  • (C)一些题4
  • (Redis使用系列) Springboot 整合Redisson 实现分布式锁 七
  • (补充):java各种进制、原码、反码、补码和文本、图像、音频在计算机中的存储方式
  • (附源码)计算机毕业设计SSM疫情居家隔离服务系统
  • (含笔试题)深度解析数据在内存中的存储
  • (学习日记)2024.02.29:UCOSIII第二节
  • (转)清华学霸演讲稿:永远不要说你已经尽力了
  • (转)原始图像数据和PDF中的图像数据
  • (转载)微软数据挖掘算法:Microsoft 时序算法(5)
  • *Algs4-1.5.25随机网格的倍率测试-(未读懂题)
  • .NET Core WebAPI中使用swagger版本控制,添加注释
  • .NET MVC第五章、模型绑定获取表单数据
  • .NET/C# 编译期能确定的字符串会在字符串暂存池中不会被 GC 垃圾回收掉