当前位置: 首页 > news >正文

【ML+DL 基础知识】信息瓶颈

ML+DL 基础知识
信息瓶颈
参考视频和文章连接,谢谢~:
信息瓶颈理论_哔哩哔哩_bilibili
机器学习_KL散度详解(全网最详细)_kl散度计算公式-CSDN博客

文章目录

    • 一、定义
      • 1.1 率失真理论
        • 1.1.1 优化目标
      • 1.2 信息瓶颈理论
        • 1.2.1 目标
        • 1.2.2 优化目标
        • 1.2.3 距离
    • 二、提出
    • 三、演示

一、定义

从源数据中提取出与任务目标相关的信息的方法

一般通过 优化权衡压缩项 和 预测项的 IB Lagrangian 来实现

在这里插入图片描述

1.1 率失真理论

1.1.1 优化目标
  • X X X 压缩为 X ~ \widetilde{X} X ,并且两者之间的 互信息 最小
  • 约束条件:
    • X X X X ~ \widetilde{X} X 之间的期望失真概率:
    • 采用两者之间距离来表示,让距离 $ \leq D$
    • 距离的表示有很多种,可以自己换

1.2 信息瓶颈理论

1.2.1 目标
  • 多了一个标签 Y Y Y
  • 保留 X X X 关于 Y Y Y 的相关信息的前提下
    • 降低 X X X 的码率
1.2.2 优化目标
  • 最小化 X X X X ~ \widetilde{X} X 的互信息
  • 最大化 X ~ \widetilde{X} X Y Y Y 的互信息
  • 两者做差,最小化 L L L
1.2.3 距离
  • 使用 KL 散度

    • 衡量 两个分布之间距离
  • KL散度,可以以称作相对熵(relative entropy)或信息散度(information divergence)

  • 理论意义:

    • 度量两个概率分布之间的差异程度
      • KL散度越大,两者的差异程度越大
      • KL散度小,两者的差异程度小
      • 如果两者相同的话,则该KL散度应该为0
        在这里插入图片描述
        在这里插入图片描述
  • 在信息论中,熵代表着信息量

  • H ( P ) H(P) H(P)代表着基于 P P P分布自身的编码长度,最优的编码长度(最小字节数)

  • H ( P , Q ) H(P,Q) H(P,Q)代表着用 Q Q Q的分布去近似 P P P分布的信息,自然需要更多的编码长度

    • 两个分布差异越大,需要的编码长度越大
    • 所以,两个值相减是大于等于0的一个值,代表冗余的编码长度,即两个分布差异的程度
    • KL散度在信息论中还可以称为相对熵(relative entropy)
  • 对深度学习中的生成模型来说

    • 希望最小化真实数据分布与生成数据分布之间的KL散度
    • 从而使得 生成数据 尽可能接近 真实数据 的分布
  • 实际场景中,几乎不可能知道真实数据分布 P d a t a ( x ) P_{data}(x) Pdata(x)

    • 使用训练数据形成的生成分布在逼近 P d a t a ( x ) P_{data}(x) Pdata(x)

二、提出

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

三、演示

在这里插入图片描述

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Mybatis(面试篇)
  • git fetch和git pull的区别
  • LeetCode 算法:数组中的第K个最大元素 c++
  • 网络安全入门教程(非常详细)从零基础入门到精通_网路安全 教程
  • 数智化底座:企业迈向智能未来的关键
  • VMware vSphere Replication 虚拟机备份及迁移实践
  • 美国一男子伪造死亡逃避抚养义务,获刑六年
  • 网站怎么做敏感词过滤,敏感词过滤的思路和实践
  • C++排序
  • 探索802.1X:构筑安全网络的认证之盾
  • 嵌入式学习day17(数据结构)
  • 【C++】深度解析:用 C++ 模拟实现 priority_queue类,探索其底层实现细节(仿函数、容器适配器)
  • WARNING XXX is not overriding the create method in batch
  • IDEA XML文件去掉黄色和绿色底色
  • Qt第十六章 多媒体Multimedia
  • 10个最佳ES6特性 ES7与ES8的特性
  • 2019年如何成为全栈工程师?
  • CSS 三角实现
  • eclipse(luna)创建web工程
  • Java,console输出实时的转向GUI textbox
  • PAT A1120
  • Spark学习笔记之相关记录
  • webpack入门学习手记(二)
  • 分享几个不错的工具
  • 聊一聊前端的监控
  • 浏览器缓存机制分析
  • 漫谈开发设计中的一些“原则”及“设计哲学”
  • 如何胜任知名企业的商业数据分析师?
  • 十年未变!安全,谁之责?(下)
  • mysql面试题分组并合并列
  • 智能情侣枕Pillow Talk,倾听彼此的心跳
  • ​数据结构之初始二叉树(3)
  • ​学习一下,什么是预包装食品?​
  • #LLM入门|Prompt#1.7_文本拓展_Expanding
  • (1)SpringCloud 整合Python
  • (4)STL算法之比较
  • (STM32笔记)九、RCC时钟树与时钟 第一部分
  • (南京观海微电子)——COF介绍
  • (牛客腾讯思维编程题)编码编码分组打印下标(java 版本+ C版本)
  • (欧拉)openEuler系统添加网卡文件配置流程、(欧拉)openEuler系统手动配置ipv6地址流程、(欧拉)openEuler系统网络管理说明
  • (续)使用Django搭建一个完整的项目(Centos7+Nginx)
  • .locked1、locked勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复
  • .mysql secret在哪_MySQL如何使用索引
  • .NET Compact Framework 多线程环境下的UI异步刷新
  • .net core Swagger 过滤部分Api
  • .NET Core 控制台程序读 appsettings.json 、注依赖、配日志、设 IOptions
  • .NET Core 中的路径问题
  • .NET delegate 委托 、 Event 事件,接口回调
  • .net 调用php,php 调用.net com组件 --
  • .NET的数据绑定
  • .NET轻量级ORM组件Dapper葵花宝典
  • .Net中ListT 泛型转成DataTable、DataSet
  • .NET中winform传递参数至Url并获得返回值或文件
  • .net专家(张羿专栏)
  • .pyc文件是什么?