当前位置: 首页 > news >正文

ML17_变分推断01:KL散度、ELBO

1. KL散度

KL散度(Kullback-Leibler divergence),也称为相对熵(relative entropy),是由Solomon Kullback和Richard Leibler在1951年引入的一种衡量两个概率分布之间差异的方法。KL散度不是一种距离度量,因为它不满足距离度量的对称性和三角不等式的要求。但是,它仍然被广泛用于量化两个概率分布之间的“接近程度”。

在机器学习和统计学中,KL散度经常用于衡量模型的拟合程度。例如,在变分推断中,KL散度被用来度量近似后验分布与真实后验分布之间的差异;而在信息论中,KL散度被用来比较信源编码的效率。另外,KL散度还在自然语言处理、计算机视觉以及其他需要比较概率分布的领域中有着广泛应用。

2. ELBO

ELBO 是 Evidence Lower BOund 的缩写,中文可以翻译为“证据下界”。在贝叶斯统计和机器学习中,尤其是变分推断(Variational Inference)中,ELBO 被用来近似计算后验分布,并作为对数似然函数的一个下界。

ELBO 的第一项是数据的对数似然的期望值,代表了模型对数据的拟合程度;第二项是变分分布与先验分布之间的 KL 散度,它惩罚了变分分布远离先验分布的程度。

1.3 变分推断

变分推断(Variational Inference, VI)是一种用于近似复杂概率分布的技术,在贝叶斯统计和机器学习中非常有用。它通常用于处理那些后验分布难以精确计算的问题。在这些情况下,变分推断通过构造一个可管理的近似分布来代替真正的后验分布,并试图使这个近似分布尽可能接近真实分布。

变分推断的核心思想是将原本的推断问题转化为一个优化问题。具体来说,变分推断会从一个参数化的分布族中选择一个分布来近似真实的后验分布。这个过程涉及到最小化两个分布之间的差异,常用的是Kullback-Leibler散度(KL散度),这是一个衡量两个概率分布之间差异的非对称指标。

变分推断的目标是最小化KL散度:

变分推断在处理大规模数据集时特别有效,因为它避免了如马尔可夫链蒙特卡罗(MCMC)方法那样需要大量计算资源的抽样过程。此外,变分推断也可以与现代深度学习框架结合,使得复杂的模型能够被有效地训练。

1.4 公式推导

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • pvesm list 命令使用
  • 单向链表的操作
  • 并发高负载场景下的负载均衡优化方案
  • 心觉:如何填平想象和愿望之间的鸿沟?
  • HTTP 请求方法(method)介绍
  • 深度学习(DL)算法分分类
  • nacos适配人大金仓以及达梦-2.41
  • Golang | Leetcode Golang题解之第384题打乱数组
  • HarmonyOS NEXT开发:UI导航栏组件-NavigationBarView
  • 【JS】如何给fetch添加超时功能
  • 【MySQL】如何优化 SQL UPDATE 语句以提升性能
  • 录制黑神话:悟空背景音,制霸你的手机铃声(游戏录制教程)
  • Codeforces Round 970 (Div. 3)
  • 什么是外卖霸王餐系统?有什么特点?
  • 怎么用golang实现一个简易版c++的FIFO队列?
  • CentOS7 安装JDK
  • ES2017异步函数现已正式可用
  • ES6 学习笔记(一)let,const和解构赋值
  • export和import的用法总结
  • node 版本过低
  • Vim Clutch | 面向脚踏板编程……
  • vue.js框架原理浅析
  • Vue学习第二天
  • 大型网站性能监测、分析与优化常见问题QA
  • 第三十一到第三十三天:我是精明的小卖家(一)
  • 快速构建spring-cloud+sleuth+rabbit+ zipkin+es+kibana+grafana日志跟踪平台
  • 前端路由实现-history
  • 微信小程序实战练习(仿五洲到家微信版)
  • 用element的upload组件实现多图片上传和压缩
  • 测评:对于写作的人来说,Markdown是你最好的朋友 ...
  • 交换综合实验一
  • 组复制官方翻译九、Group Replication Technical Details
  • ​软考-高级-系统架构设计师教程(清华第2版)【第12章 信息系统架构设计理论与实践(P420~465)-思维导图】​
  • #Linux(权限管理)
  • #在线报价接单​再坚持一下 明天是真的周六.出现货 实单来谈
  • (09)Hive——CTE 公共表达式
  • (27)4.8 习题课
  • (Arcgis)Python编程批量将HDF5文件转换为TIFF格式并应用地理转换和投影信息
  • (Ruby)Ubuntu12.04安装Rails环境
  • (solr系列:一)使用tomcat部署solr服务
  • (博弈 sg入门)kiki's game -- hdu -- 2147
  • (翻译)Quartz官方教程——第一课:Quartz入门
  • (附源码)ssm户外用品商城 毕业设计 112346
  • (一) 初入MySQL 【认识和部署】
  • (原创)Stanford Machine Learning (by Andrew NG) --- (week 9) Anomaly DetectionRecommender Systems...
  • (转)大型网站架构演变和知识体系
  • 、写入Shellcode到注册表上线
  • . Flume面试题
  • .360、.halo勒索病毒的最新威胁:如何恢复您的数据?
  • .bashrc在哪里,alias妙用
  • .NET : 在VS2008中计算代码度量值
  • .net core 外观者设计模式 实现,多种支付选择
  • .NET HttpWebRequest、WebClient、HttpClient
  • .NET+WPF 桌面快速启动工具 GeekDesk
  • .Net语言中的StringBuilder:入门到精通