当前位置: 首页 > news >正文

哈夫曼树你需要了解一下

    • 哈夫曼树介绍
    • 哈夫曼数特点
    • 哈夫曼应用场景
    • 哈夫曼构建过程
    • 哈夫曼树示例
    • 拓展

哈夫曼树介绍

哈夫曼树(Huffman Tree)是一种特殊的二叉树,也被称为最优二叉树。在计算机科学中,它是由权值作为叶子节点构造出来的一种二叉树。哈夫曼树的特点是,对于给定的n个权值,构造出的哈夫曼树具有最小的带权路径长度(WPL)。

具体来说,哈夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码。这个变长编码表是通过评估来源符号出现机率的方法得到的。出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码。这样,编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。

在构建哈夫曼树时,通常规定生成的哈夫曼树中每个结点的左子树根结点的权小于等于右子树根结点的权。对于给定的n个权值,构造出的哈夫曼树有n个叶子结点。

哈夫曼树是由哈夫曼在1951年提出的。当时,他在麻省理工学院(MIT)攻读博士学位,并和修读信息论课程的同学面临选择完成学期报告或期末考试。他的导师罗伯特·法诺出的学期报告题目是:查找最有效的二进制编码。

哈夫曼在研究这个问题的过程中,发现无法证明哪个已有编码是最有效的,因此他转向新的探索,最终发现了基于有序频率二叉树编码的想法,并很快证明了这个方法是最有效的。哈夫曼使用自底向上的方法构建二叉树,避免了次优算法香农-范诺编码(Shannon–Fano coding)的最大弊端──自顶向下构建树。

因为构造这种树的算法是最早由哈夫曼于1952年提出的,所以被称之为哈夫曼树。哈夫曼树是带权路径长度WPL最小的二叉树,它是一种最优二叉树。

在这里插入图片描述

哈夫曼数特点

哈夫曼树的主要特点包括:

  1. 带权路径和最小:哈夫曼树是带权路径和中权值最小的树,也被称为最优二叉树。这意味着在所有可能的二叉树中,哈夫曼树能够使得树的带权路径长度最小。
  2. 不存在度为1的节点:哈夫曼树中不存在度为1的节点,即所有节点都有至少两个子节点。
  3. 总结点数:对于n个叶子节点的哈夫曼树,总共有2n-1个节点。
  4. 权值越小的节点到根节点的路径越长:在哈夫曼树中,权值越小的节点离根节点越远,路径也就越长。
  5. 最优二叉树个数不唯一:由于构建过程中并未严格区分左右子树,所以最优二叉树个数并不唯一。
    除了上述提到的特点外,哈夫曼树还有其他一些特点:
  6. 二叉树:哈夫曼树是一种二叉树,具有二叉树的特性,例如每个节点最多只有两个子节点,且子节点分为左子树和右子树。
  7. 有序树:哈夫曼树是一种有序树,左子树和右子树是有顺序的,次序不能任意颠倒。这也意味着即使某个节点只有一个子节点,也需要区分它是左子树还是右子树。
  8. 构建过程:哈夫曼树的构建过程通常采用优先队列的方式,将权值最小的两个节点合并为一个新的节点,然后将新节点的权值加入到优先队列中。这个过程会不断重复,直到优先队列中只剩下一个节点为止。
  9. 动态构建:哈夫曼树也可以动态构建,即每次只处理一部分数据,然后根据处理结果动态地构建哈夫曼树。这种构建方式可以更加灵活地处理数据,并且可以实时地更新哈夫曼树。
  10. 应用广泛:哈夫曼树被广泛应用于各种领域,例如数据压缩、编码解码、序列比对、机器学习、图像处理和声音处理等。

在这里插入图片描述

哈夫曼应用场景

哈夫曼树是一种广泛使用的数据结构,主要用于构建最优编码,在许多领域都有应用。

1. 数据压缩 :哈夫曼编码是一种无损数据压缩方法,通过使用较短的编码来表示常见的符号,从而减少数据的大小。它被广泛应用于图像、音频和视频等数据的压缩。
2. 编码解码 :哈夫曼树可以用于构建最优编码,将信息转换为二进制形式,并可以在接收端使用相同的哈夫曼树解码恢复原始信息。这种编码解码技术被广泛应用于通信和网络传输领域。
3. 序列比对 :在生物信息学中,哈夫曼树被用于DNA序列的比对和相似度计算。通过构建基因序列的哈夫曼树,可以比较不同基因序列之间的相似性和差异。
4. 机器学习 :哈夫曼树也被用于机器学习算法中,例如决策树和聚类算法。通过构建特征的哈夫曼树,可以优化特征选择和分类器的构建。
5. 图像处理 :哈夫曼树可以用于图像的压缩和编码,以及图像特征提取和分类。
6. 声音处理 :哈夫曼树可以用于声音的压缩和编码,以及语音识别和合成。
7. 优化技术 :哈夫曼树是一种优化技术,可以用于解决各种优化问题,例如最短路径问题、最小生成树问题等。

哈夫曼树在许多领域都有广泛的应用,是一种非常实用的数据结构和算法。

在这里插入图片描述

哈夫曼构建过程

哈夫曼树的构建过程如下:

  1. 准备阶段:给定N个权值作为N个叶子结点,构造一棵二叉树,该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree)。
  2. 创建阶段:给定n个权值,构造出的哈夫曼树有n个叶子结点。 n个权值分别设为 w1、w2、…、wn,则哈夫曼树的构造规则为:
  • a. 将w1、w2、…,wn看成是有n棵树的森林(每棵树仅有一个结点);

  • b. 在森林中选出两个根结点的权值最小的树合并,作为一棵新树的左、右子树,且新树的根结点权值为其左、右子树根结点权值之和;

  • c. 从森林中删除选取的两棵树,并将新树加入森林;

  • d. 重复b、c步,直到森林中只剩一棵树为止,该树即为所求得的哈夫曼树。

在这里插入图片描述

哈夫曼树示例

以下是使用Java实现哈夫曼树的示例代码:

import java.util.*;class Node {int weight;Node left, right;Node(int weight) {this.weight = weight;left = right = null;}
}class HuffmanTree {private static final int R = 2; // 哈夫曼树中每个节点的左子树和右子树的数量private Node root; // 根节点// 构建哈夫曼树public void build(int[] weights) {int[] queue = new int[weights.length]; // 存储节点的索引for (int i = 0; i < weights.length; i++) {queue[i] = i + 1; // 将节点的索引加入队列}PriorityQueue<Node> pq = new PriorityQueue<>(R); // 使用优先队列存储节点for (int i = 0; i < weights.length; i++) {Node node = new Node(weights[i]); // 创建新节点pq.offer(node); // 将节点加入优先队列if (pq.size() > R) { // 如果优先队列中的元素数量超过R,则合并两个最小节点Node min1 = pq.poll(); // 取出最小节点1Node min2 = pq.poll(); // 取出最小节点2Node parent = new Node(min1.weight + min2.weight); // 创建父节点parent.left = min1; // 设置左子树parent.right = min2; // 设置右子树pq.offer(parent); // 将父节点加入优先队列}if (i == weights.length - 1) { // 如果遍历完所有节点,则根节点为当前队列中最大的节点root = pq.poll();}}}
}

优先队列在构建哈夫曼树时的作用是维护和调整节点的优先级。优先队列中的节点按照其权值的大小进行排序,权值最小的节点位于队列的前端。每次从队列中取出权值最小的两个节点,将它们合并为一个新的节点,新的节点的权值等于这两个节点的权值之和。然后将新的节点重新插入到优先队列中。这个过程不断重复,直到优先队列中只剩下一个节点,这个节点就是构建出的哈夫曼树的根节点。
通过使用优先队列,我们可以高效地找到权值最小的两个节点,并快速地合并它们。这是因为在优先队列中,权值最小的节点始终位于队列的前端,我们可以直接取出这两个节点进行合并。这极大地简化了构建哈夫曼树的过程,并提高了效率。

在这里插入图片描述

拓展

AVL树你需要了解一下

红黑树你需要了解一下

满二叉树你需要了解一下

完全二叉树你需要了解一下

在这里插入图片描述

相关文章:

  • C语言获取命令行选项(option/flag)和输入的内容的一种巧妙的办法
  • Rockchip平台rk3588源码下载编译(基于Android13)
  • 【搭环境】装Python3.8 open3d
  • 网络运维与网络安全 学习笔记2023.11.23
  • thingsboard3.6的mailConfigTemplateController错误
  • chatglm3部署使用
  • 网络运维与网络安全 学习笔记2023.11.22
  • 使用websocket获取thingsboard设备的实时数据
  • 贪心:leetcode2216 美化数组的最少删除数
  • Pickcode:教孩子们编码的新视觉语言
  • Python 使用SQLAlchemy数据库模块
  • logic-flow 使用过程中遇到的bug - 拖动节点到画布的时候,鼠标松开,节点不落在画布,仍旧跟着鼠标走
  • 【23真题】最后一套两电一邮,纸老虎偏多!
  • go sync.map源码解读
  • UDP网络套接字编程
  • chrome扩展demo1-小时钟
  • crontab执行失败的多种原因
  • ES10 特性的完整指南
  • js写一个简单的选项卡
  • k个最大的数及变种小结
  • miaov-React 最佳入门
  • seaborn 安装成功 + ImportError: DLL load failed: 找不到指定的模块 问题解决
  • 从0搭建SpringBoot的HelloWorld -- Java版本
  • 搞机器学习要哪些技能
  • 基于 Babel 的 npm 包最小化设置
  • 简单易用的leetcode开发测试工具(npm)
  • 开源中国专访:Chameleon原理首发,其它跨多端统一框架都是假的?
  • 聊聊redis的数据结构的应用
  • 浅析微信支付:申请退款、退款回调接口、查询退款
  • 设计模式 开闭原则
  • 世界编程语言排行榜2008年06月(ActionScript 挺进20强)
  • 一个完整Java Web项目背后的密码
  • 怎样选择前端框架
  • No resource identifier found for attribute,RxJava之zip操作符
  • 【运维趟坑回忆录 开篇】初入初创, 一脸懵
  • 1.Ext JS 建立web开发工程
  • ionic入门之数据绑定显示-1
  • ​业务双活的数据切换思路设计(下)
  • (14)学习笔记:动手深度学习(Pytorch神经网络基础)
  • (C++17) optional的使用
  • (Python) SOAP Web Service (HTTP POST)
  • (Redis使用系列) Springboot 使用redis的List数据结构实现简单的排队功能场景 九
  • (ZT)一个美国文科博士的YardLife
  • (二)七种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB
  • (附源码)计算机毕业设计SSM保险客户管理系统
  • (十七)Flask之大型项目目录结构示例【二扣蓝图】
  • (五)MySQL的备份及恢复
  • (一)Mocha源码阅读: 项目结构及命令行启动
  • (转)http-server应用
  • (转)利用ant在Mac 下自动化打包签名Android程序
  • .dat文件写入byte类型数组_用Python从Abaqus导出txt、dat数据
  • .NET Core 实现 Redis 批量查询指定格式的Key
  • .NET WebClient 类下载部分文件会错误?可能是解压缩的锅
  • .net 生成二级域名
  • .NET:自动将请求参数绑定到ASPX、ASHX和MVC(菜鸟必看)