当前位置: 首页 > news >正文

机器学习中的方差偏差分析(Bias-variance analysis)

在预测问题中,给定一个新的数据点,预测错误的期望是多少?
假设数据是独立同分布地从一个潜在固定的概率分布中获取的,假设其分布函数为 P ( &lt; x , y &gt; ) = P ( x ) P ( y ∣ x ) P(&lt;\textbf{x},y&gt;) = P(\textbf{x})P(y|\textbf{x}) P(<x,y>)=P(x)P(yx),我们的目标就是对任意给定的数据点 x x x, 求出 E P [ ( y − h ( x ) ) 2 ∣ x ] , E_P[(y−h(\textbf{x}))^2|\textbf{x}], EP[(yh(x))2x],其中,y 是数据集中 x \textbf{x} x 对应的值,期望是针对所有数据集,下标 P 表示所有数据集是从同一分布 P 中获取的。形式上,该值是某一点 x \textbf{x} x 在多个数据集上的预测错误的均值(期望)。
对于给定的假设集,我们可以计算出模型的真实错误(true error),也称泛化错误、测试错误 ∑ x E P [ ( y − h ( x ) ) 2 ∣ x ] P ( x ) , \sum_{\textbf{x}}E_P[(y−h(\textbf{x}))^2|\textbf{x}]P(\textbf{x}), xEP[(yh(x))2x]P(x),即为 所有数据点 在那个输入数据的潜在固定分布上的预测错误的期望。如果 x \textbf{x} x 为连续变量,则上述求和转化成积分形式。
我们接下来将把 真实错误(true error) 一分为三: 真实错误   =   偏差   +   方差   +   噪声。 \textbf{真实错误 = 偏差 + 方差 + 噪声。} 真实错误 = 偏差 + 方差 + 噪声。
关于方差和期望的基本结论:
E [ X 2 ] = ( E [ X ] ) 2 + V a r [ X ] E ( X Y ) = E ( X ) E ( Y ) + C o v ( X , Y ) E[X^2] = (E[X])^2 + V ar[X]\\E(XY) = E(X)E(Y) + Cov(X,Y) E[X2]=(E[X])2+Var[X]E(XY)=E(X)E(Y)+Cov(X,Y)
先做一个简单展开:
E P [ ( y − h ( x ) ) 2 ∣ x ] &ThinSpace; = E P [ ( h ( x ) ) 2 − 2 y h ( x ) + y 2 ∣ x ] &ThinSpace; = E P [ ( h ( x ) ) 2 ∣ x ] + E P [ y 2 ∣ x ] − 2 E P [ y ∣ x ] E P [ h ( x ) ∣ x ] , … … ( 1 ) E_P[(y−h(\mathbf{x}))^2|\mathbf{x}] \\\,\\= E_P [(h(\mathbf{x}))^2 − 2yh(\mathbf{x}) + y^2|\mathbf{x}]\\\,\\=E_P [(h(\mathbf{x}))^2|\mathbf{x}] +E_P[y^2|\mathbf{x}] -2E_P[y|\mathbf{x}]E_P[h(\mathbf{x})|\mathbf{x}],……(1) EP[(yh(x))2x]=EP[(h(x))22yh(x)+y2x]=EP[(h(x))2x]+EP[y2x]2EP[yx]EP[h(x)x](1)
上式中包含三项。令 h ‾ ( x ) = E P [ h ( x ) ∣ x ] \overline{h}(\mathbf{x})=E_P[h(\mathbf{x})|\mathbf{x}] h(x)=EP[h(x)x],表示点 x 在不同数据集上(分布P上)预测的均值(期望),则

第一项
运用方差的结论:平方的期望=期望的平方+方差
E P [ ( h ( x ) ) 2 ∣ x ] = ( h ‾ ( x ) ) 2 + E P [ ( h ( x ) − h ‾ ( x ) ) 2 ∣ x ] 。 … … ( 2 ) E_P [(h(\mathbf{x}))^2|\mathbf{x}]=(\overline{h}(\mathbf{x}))^2+E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}]。……(2) EP[(h(x))2x]=(h(x))2+EP[(h(x)h(x))2x](2)
第二项
运用方差的结论:平方的期望=期望的平方+方差
E P [ y 2 ∣ x ] = ( E P ( y ∣ x ) ) 2 + E P [ ( y − f ( x ) ) 2 ∣ x ] E_P [y^2|\mathbf{x}]=(E_P(y|\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] EP[y2x]=(EP(yx))2+EP[(yf(x))2x]
注意到 E P ( y ∣ x ) = E P ( f ( x ) + ϵ ∣ x ) = f ( x ) E_P(y|\mathbf{x}) = E_P(f(\mathbf{x})+\epsilon|\mathbf{x})=f(\mathbf{x}) EP(yx)=EP(f(x)+ϵx)=f(x),其中 ϵ ∼ N ( 0 , σ ) \epsilon\sim N(0,\sigma) ϵN(0,σ),故上式化为
E P [ y 2 ∣ x ] = ( f ( x ) ) 2 + E P [ ( y − f ( x ) ) 2 ∣ x ] 。 … … ( 3 ) E_P [y^2|\mathbf{x}]=(f(\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}]。……(3) EP[y2x]=(f(x))2+EP[(yf(x))2x](3)

将(2)(3)代入(1),得 E P [ ( y − h ( x ) ) 2 ∣ x ] &ThinSpace; = E P [ ( h ( x ) ) 2 ∣ x ] + E P [ y 2 ∣ x ] − 2 f ( x ) h ‾ ( x ) &ThinSpace; = ( h ‾ ( x ) ) 2 + E P [ ( h ( x ) − h ‾ ( x ) ) 2 ∣ x ] + ( f ( x ) ) 2 + E P [ ( y − f ( x ) ) 2 ∣ x ] − 2 f ( x ) h ‾ ( x ) &ThinSpace; = E P [ ( h ( x ) − h ‾ ( x ) ) 2 ∣ x ] + ( f ( x ) − h ‾ ( x ) ) 2 + E P [ ( y − f ( x ) ) 2 ∣ x ] 。 … … ( ∗ ) E_P[(y−h(\mathbf{x}))^2|\mathbf{x}] \\\,\\=E_P [(h(\mathbf{x}))^2|\mathbf{x}] +E_P[y^2|\mathbf{x}] -2f(\mathbf{x})\overline{h}(\mathbf{x}) \\\,\\=(\overline{h}(\mathbf{x}))^2+E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] \\+ (f(\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] \\-2f(\mathbf{x})\overline{h}(\mathbf{x}) \\\,\\=E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] +(f(\mathbf{x})-\overline{h}(\mathbf{x}))^2 + E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] 。……(*) EP[(yh(x))2x]=EP[(h(x))2x]+EP[y2x]2f(x)h(x)=(h(x))2+EP[(h(x)h(x))2x]+(f(x))2+EP[(yf(x))2x]2f(x)h(x)=EP[(h(x)h(x))2x]+(f(x)h(x))2+EP[(yf(x))2x]()
大功告成!!!!!!!!!!!!!!!!!!!!!!!!!!!!

  • E P [ ( h ( x ) − h ‾ ( x ) ) 2 ∣ x ] E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] EP[(h(x)h(x))2x] 为 预测的 方差
  • ( f ( x ) − h ‾ ( x ) ) 2 (f(\mathbf{x})-\overline{h}(\mathbf{x}))^2 (f(x)h(x))2平方偏差
  • E P [ ( y − f ( x ) ) 2 ∣ x ] E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] EP[(yf(x))2x]噪声

相关文章:

  • 新爹手记-分娩篇-生男生女
  • Web环境下SVG地图浏览器的设计与实现
  • 基于SVG的WebGIS地图搜索研究与实现
  • 程序员教你不背单词学英语!流利英语一周成!!!
  • 工业标准的矢量图像格式----SVG
  • 一个关于遗传算法的java小实验(吃豆人)
  • Nvidia副总裁称“CPU已死,GPU当立”
  • 宽度学习(Broad Learning System)
  • Mock in JUnit
  • 用概率告诉你:集齐 “五福” 要多久
  • 矩阵测度(L2诱导范数对应下的矩阵测度)
  • 垃圾邮件30年
  • Latex 字符集大全
  • 判断凸函数的若干方法
  • IT正在成为基础设施
  • laravel with 查询列表限制条数
  • linux学习笔记
  • nginx 负载服务器优化
  • Perseus-BERT——业内性能极致优化的BERT训练方案
  • Python_网络编程
  • quasar-framework cnodejs社区
  • spring cloud gateway 源码解析(4)跨域问题处理
  • spring security oauth2 password授权模式
  • Vue源码解析(二)Vue的双向绑定讲解及实现
  • 初识 webpack
  • 搞机器学习要哪些技能
  • 浏览器缓存机制分析
  • 前端_面试
  • 如何使用 JavaScript 解析 URL
  • 如何优雅的使用vue+Dcloud(Hbuild)开发混合app
  • 微信支付JSAPI,实测!终极方案
  • 新书推荐|Windows黑客编程技术详解
  • 好程序员大数据教程Hadoop全分布安装(非HA)
  • ​ArcGIS Pro 如何批量删除字段
  • (003)SlickEdit Unity的补全
  • (17)Hive ——MR任务的map与reduce个数由什么决定?
  • (超详细)语音信号处理之特征提取
  • (简单有案例)前端实现主题切换、动态换肤的两种简单方式
  • (转)大型网站的系统架构
  • .bat批处理(五):遍历指定目录下资源文件并更新
  • .NET Conf 2023 回顾 – 庆祝社区、创新和 .NET 8 的发布
  • .NET Core IdentityServer4实战-开篇介绍与规划
  • .NET Core 成都线下面基会拉开序幕
  • []我的函数库
  • [20171101]rman to destination.txt
  • [Asp.net mvc]国际化
  • [CERC2017]Cumulative Code
  • [delphi]保证程序只运行一个实例
  • [leetcode] 3Sum
  • [Manacher]【学习笔记】
  • [nlp] grad norm先降后升再降
  • [P4V]Perforce(P4V)使用教程
  • [VS2005 Tip] 自动生成Property。
  • [Vue]路由传参 命名路由
  • [搬运]什么叫幂等性?