当前位置: 首页 > news >正文

哈希算法教程(个人总结版)

背景

哈希算法(Hash Algorithm)是一种将任意长度的输入(也称为消息)转换为固定长度的输出(也称为哈希值、散列值、摘要)的算法。哈希算法在计算机科学中有着广泛的应用,包括数据存储、数据检索、数据完整性验证、密码学等。

哈希算法的关键特性

  1. 确定性:相同的输入总是产生相同的输出。
  2. 高效性:计算哈希值的过程应该尽可能高效。
  3. 抗碰撞性:很难找到两个不同的输入具有相同的哈希值。
  4. 抗篡改性:对于给定的哈希值,几乎不可能反推出原始输入。
  5. 均匀分布:哈希值应该均匀分布,尽量避免碰撞。

哈希算法的种类

  1. 散列函数:如常见的哈希表中的散列函数。
  2. 密码学哈希函数:如MD5、SHA-1、SHA-256等,用于数据完整性验证和密码学应用。

散列函数

散列函数用于哈希表(Hash Table)等数据结构中,将数据映射到固定大小的数组上,以实现高效的数据存储和检索。

密码学哈希函数

密码学哈希函数用于验证数据完整性、数字签名等安全应用。常见的密码学哈希函数有:

  • MD5(Message Digest Algorithm 5)
  • SHA-1(Secure Hash Algorithm 1)
  • SHA-256(Secure Hash Algorithm 256-bit)
  • SHA-3(Secure Hash Algorithm 3)

哈希算法的应用

  1. 数据存储和检索:如哈希表、数据库索引等。
  2. 数据完整性验证:如文件校验、数据传输校验等。
  3. 密码学应用:如数字签名、消息认证码等。
  4. 负载均衡:如一致性哈希算法在分布式系统中的应用。

哈希算法的实现

散列函数

简单散列函数

简单散列函数是一种基础的哈希函数,通过对每个字符的ASCII码求和,再取模数组大小,得到哈希值。

def simple_hash(key, size):hash_value = 0for char in key:hash_value += ord(char)return hash_value % size# 示例
key = "example"
size = 10
hash_index = simple_hash(key, size)
print(f"'{key}' 的哈希值为: {hash_index}")
乘法散列法

乘法散列法使用一个常数A(通常取黄金比例),将键值乘以A,再取其小数部分,最后乘以数组大小并取整。

def multiplicative_hash(key, size):A = 0.6180339887  # 常数 A,通常取黄金比例hash_value = 0for char in key:hash_value += ord(char)fractional_part = (hash_value * A) % 1return int(size * fractional_part)# 示例
key = "example"
size = 10
hash_index = multiplicative_hash(key, size)
print(f"'{key}' 的哈希值为: {hash_index}")

密码学哈希函数

MD5 算法

MD5(Message Digest Algorithm 5)是一种广泛使用的密码学哈希函数,产生128位的哈希值。尽管MD5在许多安全应用中已被认为不够安全,但仍然在一些非安全性场景中被广泛使用。

import hashlibdef md5_hash(data):md5 = hashlib.md5()md5.update(data.encode('utf-8'))return md5.hexdigest()# 示例
data = "example"
hash_value = md5_hash(data)
print(f"'{data}' 的 MD5 哈希值为: {hash_value}")
SHA-256 算法

SHA-256(Secure Hash Algorithm 256-bit)是SHA-2(Secure Hash Algorithm 2)家族中的一种,广泛应用于安全性要求较高的场景,如区块链、数字签名等。

import hashlibdef sha256_hash(data):sha256 = hashlib.sha256()sha256.update(data.encode('utf-8'))return sha256.hexdigest()# 示例
data = "example"
hash_value = sha256_hash(data)
print(f"'{data}' 的 SHA-256 哈希值为: {hash_value}")

哈希算法对比

算术均值、几何均值、调和均值与加权均值对比
算法哈希值长度安全性性能应用场景
MD5128位数据校验、非安全性场景
SHA-1160位较弱较快过去的安全应用(已不推荐)
SHA-256256位较慢高安全性场景、区块链
SHA-3可变较慢高安全性场景

优劣势分析

MD5

  • 优点:计算速度快,适合大数据量的快速校验。
  • 缺点:安全性较弱,易受碰撞攻击,不适用于安全性要求高的场景。

SHA-1

  • 优点:比MD5安全性略高。
  • 缺点:仍存在安全漏洞,不推荐用于新的安全应用。

SHA-256

  • 优点:安全性高,广泛应用于区块链和数字签名等高安全性领域。
  • 缺点:计算速度较慢,对资源要求较高。

SHA-3

  • 优点:最新的SHA算法,安全性更高,设计灵活,支持可变长度的哈希值。
  • 缺点:计算速度较慢,对资源要求高。

哈希算法应用实例

文件完整性验证

哈希算法可以用于文件的完整性验证,确保文件在传输或存储过程中没有被篡改。

import hashlibdef calculate_file_hash(file_path, algorithm='sha256'):hash_func = getattr(hashlib, algorithm)()with open(file_path, 'rb') as f:while chunk := f.read(4096):hash_func.update(chunk)return hash_func.hexdigest()# 示例
file_path = 'example.txt'
hash_value = calculate_file_hash(file_path)
print(f"文件 '{file_path}' 的哈希值为: {hash_value}")

数据库索引

哈希算法可以用于数据库的索引,提高数据检索的效率。

class HashTable:def __init__(self, size):self.size = sizeself.table = [[] for _ in range(size)]def _hash(self, key):return hash(key) % self.sizedef insert(self, key, value):hash_key = self._hash(key)key_exists = Falsebucket = self.table[hash_key]for i, kv in enumerate(bucket):k, v = kvif key == k:key_exists = Truebreakif key_exists:bucket[i] = (key, value)else:bucket.append((key, value))def search(self, key):hash_key = self._hash(key)bucket = self.table[hash_key]for k, v in bucket:if key == k:return vreturn None# 示例
hash_table = HashTable(10)
hash_table.insert('key1', 'value1')
hash_table.insert('key2', 'value2')
print(f"key1: {hash_table.search('key1')}")
print(f"key2: {hash_table.search('key2')}")

一致性哈希算法

一致性哈希算法是一种特殊的哈希算法,常用于分布式系统中进行负载均衡。它将节点和数据都映射到一个虚拟的环上,通过环上的位置确定数据存储的节点。

一致性哈希算法实现

import hashlibclass ConsistentHash:def __init__(self, nodes=None, replicas=3):self.replicas = replicasself.ring = dict()self._sorted_keys = []if nodes:for node in nodes:self.add_node(node)def _hash(self, key):return int(hashlib.md5(key.encode('utf-8')).hexdigest(), 16)def add_node(self, node):for i in range(self.replicas):key = self._hash(f'{node}:{i}')self.ring[key] = nodeself._sorted_keys.append(key)self._sorted_keys.sort()def remove_node(self, node):for i in range(self.replicas):key = self._hash(f'{node}:{i}')del self.ring[key]self._sorted_keys.remove(key)def get_node(self, key):if not self.ring:return Nonehash_key = self._hash(key)for key in self._sorted_keys:if hash_key <= key:return self.ring[key]return self.ring[self._sorted_keys[0]]# 示例
nodes = ['node1', 'node2', 'node3']
ch = ConsistentHash(nodes)key = 'my_data_key'
node = ch.get_node(key)
print(f"'{key}' 应该映射到节点: {node}")

结论

哈希算法是计算机科学中不可或缺的重要工具,广泛应用于数据存储与检索、数据完整性验证、密码学等领域。通过对不同哈希算法的学习和实践,可以更好地理解和应用这些技术,提高系统的性能和安全性。在实际应用中,应根据具体需求选择合适的哈希算法,以充分发挥其优势。

通过本教程的详细介绍和代码示例,希望您对哈希算法有了更深入的理解,并能够在实际项目中应用这些技术。

相关文章:

  • 查询DQL
  • 赶紧收藏!2024 年最常见 20道 Rocket MQ面试题(二)
  • 基于python flask +pyecharts实现的气象数据可视化分析大屏
  • NDIS小端口驱动开发(一)
  • K210 数字识别 笔记
  • 通过el-tree自定义渲染网页版工作目录,实现鼠标悬浮显示完整名称、用icon区分文件和文件夹等需求
  • 新建一个esri_sde_gists的服务
  • C++中的异常处理
  • 【开发 | 环境配置】解决 VSCode 编写 eBPF 程序找不到头文件
  • 【STM32嵌入式系统设计与开发---传感器拓展】——1_2_蓝牙主从模块_AT配置(HC-05)
  • Java学习-简单的用户管理系统
  • docker 挂载运行镜像
  • 旅游卡在哪里拿货?千益畅行旅游卡源头
  • docker image prune -f 命令什么用途
  • 数字化工厂怎么收集,处理数据?
  • 【5+】跨webview多页面 触发事件(二)
  • 【个人向】《HTTP图解》阅后小结
  • css选择器
  • HTML-表单
  • HTTP--网络协议分层,http历史(二)
  • JavaScript学习总结——原型
  • JavaScript异步流程控制的前世今生
  • JAVA并发编程--1.基础概念
  • java中具有继承关系的类及其对象初始化顺序
  • pdf文件如何在线转换为jpg图片
  • tensorflow学习笔记3——MNIST应用篇
  • WinRAR存在严重的安全漏洞影响5亿用户
  • 对话:中国为什么有前途/ 写给中国的经济学
  • 前端自动化解决方案
  • 深入 Nginx 之配置篇
  • 使用Envoy 作Sidecar Proxy的微服务模式-4.Prometheus的指标收集
  • 400多位云计算专家和开发者,加入了同一个组织 ...
  • 正则表达式-基础知识Review
  • ​LeetCode解法汇总518. 零钱兑换 II
  • #define,static,const,三种常量的区别
  • #Js篇:单线程模式同步任务异步任务任务队列事件循环setTimeout() setInterval()
  • #LLM入门|Prompt#1.7_文本拓展_Expanding
  • $.ajax()
  • $.extend({},旧的,新的);合并对象,后面的覆盖前面的
  • (3)选择元素——(14)接触DOM元素(Accessing DOM elements)
  • (42)STM32——LCD显示屏实验笔记
  • (C语言)fread与fwrite详解
  • (读书笔记)Javascript高级程序设计---ECMAScript基础
  • (附程序)AD采集中的10种经典软件滤波程序优缺点分析
  • (九)c52学习之旅-定时器
  • (十三)Maven插件解析运行机制
  • (四)stm32之通信协议
  • (转)memcache、redis缓存
  • (转)Oracle 9i 数据库设计指引全集(1)
  • (最完美)小米手机6X的Usb调试模式在哪里打开的流程
  • ***汇编语言 实验16 编写包含多个功能子程序的中断例程
  • *Django中的Ajax 纯js的书写样式1
  • ./configure、make、make install 命令
  • .gitignore文件—git忽略文件
  • [ Python ]使用Charles对Python程序发出的Get与Post请求抓包-解决Python程序报错问题