当前位置: 首页 > news >正文

【深度学习】S2 数学基础 P4 概率论

目录

  • 基本概率论
    • 概率论公理
    • 随机变量
  • 多个随机变量
    • 联合概率
    • 条件概率
    • 贝叶斯定理
    • 求和法则
    • 独立性
  • 期望与方差
  • 小结

基本概率论

机器学习本质上,就是做出预测。而概率论提供了一种量化和表达不确定性水平的方法,可以帮助我们量化对某个结果的确定性程度。

在一个简单的图像分类任务中;

  • 如果我们非常确定图像中的对象是一只猫,那么我们可以说标签为 “猫” 的概率是 1,即 P ( y = “猫” ) = 1 P(y =“猫”) = 1 P(y=)=1;
  • 如果我们无法区分图像是猫还是狗,那么我们可以说两者出现的概率相等,即 P ( y = “猫” ) = P ( y = “狗” ) = 0.5 P(y =“猫”) = P(y =“狗”) = 0.5 P(y=)=P(y=)=0.5;
  • 如果我们对图像是否为猫不太确定,我们可以将概率设置在一个介于 0.5 和 1 之间的值,表示我们对其为猫的确定性程度不是完全的,但比完全不确定要高。

这种概率的量化和比较使得我们可以更加客观和量化地评估和处理不确定性。

概率论公理

概率论名词:

  • 样本空间:所有可能结果的集合;
  • 事件:给定样本空间的一个子集;
  • 概率:将集合映射到真实值的函数,反映了事件发生的可能性;

概率论公理:

  • 对于任意事件,其概率从不会是负数;
  • 整个样本空间的概率为 1;
  • 对于互斥事件(A、B、C互斥),有 P ( A ∪ B ∪ C ) = P ( A ) + P ( B ) + P ( C ) P(A∪B∪C)=P(A) + P(B) + P(C) P(ABC)=P(A)+P(B)+P(C)

随机变量

随机变量是将样本空间中的每个结果映射到一个实数集上的函数;

e . g . e.g. e.g. 以掷一个六面的骰子为例,其样本空间 S S S 包含所有可能的结果,即 S = { 1 , 2 , 3 , 4 , 5 , 6 } S = \{1, 2, 3, 4, 5, 6\} S={1,2,3,4,5,6}。我们定义一个随机变量 X X X,它将每个结果映射到一个实数。这里假设我们设定 X = x 2 + 1 X = x^2+1 X=x2+1,其中 x x x 为骰子的结果。

那么我们可以计算出每个结果对应的 X X X 值:

  • x = 1 x=1 x=1 时, X = x 2 + 1 = 2 X = x^2+1=2 X=x2+1=2
  • x = 2 x=2 x=2 时, X = x 2 + 1 = 5 X = x^2+1=5 X=x2+1=5
  • x = 3 x=3 x=3 时, X = x 2 + 1 = 10 X = x^2+1=10 X=x2+1=10
  • x = 4 x=4 x=4 时, X = x 2 + 1 = 17 X = x^2+1=17 X=x2+1=17
  • x = 5 x=5 x=5 时, X = x 2 + 1 = 26 X = x^2+1=26 X=x2+1=26
  • x = 6 x=6 x=6 时, X = x 2 + 1 = 37 X = x^2+1=37 X=x2+1=37

因此,离散随机变量 X X X 的可能取值为 {2, 5, 10, 17, 26, 37};在公平骰子的情况下,每个结果出现的概率是相等的,出现的概率都为 1 6 \frac 1 6 61


多个随机变量

联合概率

联合概率 P ( A = a , B = b ) P(A=a, B=b) P(A=a,B=b) 描述的是事件 A A A 发生且事件 B B B 也发生的概率。具体来说,它表示在所有可能的情况中,事件 A A A 结果为 a a a 且事件 B B B 结果为 b b b 的这种情况出现的概率是多少。

隐含在这个概念中的概率定律是,事件 A A A 和事件 B B B 同时发生的概率不会超过事件 A A A 或者事件 B B B 单独发生的概率。即 P ( A = a , B = b ) ≤ P ( A = a ) P(A=a, B=b) ≤ P(A=a) P(A=a,B=b)P(A=a)

条件概率

而联合概率不等式的变形:
0 ≤ P ( A = a , B = b ) P ( A = a ) ≤ 1 0 ≤ \frac {P(A=a, B=b)} {P(A=a)} ≤ 1 0P(A=a)P(A=a,B=b)1

这个比率称为条件概率,并用 P ( B = b ∣ A = a ) P(B=b|A=a) P(B=bA=a) 来表示。他是 B = b B=b B=b 的概率,前提是 A = a A=a A=a 已发生。

完整公式为: P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac {P(AB)} {P(A)} P(BA)=P(A)P(AB)

贝叶斯定理

根据条件概率的定义,我们可以得出统计学最有用的方程之一:Bayes 贝叶斯定理。
P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

贝叶斯定理的直观含义是,当我们观察到事件 B B B 发生时,事件 A A A 发生的概率会根据事件 B B B 发生的概率和对事件 A A A B B B 相关性的了解而改变。贝叶斯定理是一种强大的工具,可以帮助我们在有新的证据出现时更新我们对某个假设的信念。

求和法则

根据求和法则, P ( B ) = ∑ A P ( A , B ) P(B)=\sum_{A}P(A,B) P(B)=AP(A,B)

B B B 的概率相当于计算 A A A 的所有可能选择,并将所有选择联合概率聚合在一起。

独立性

如果两个随机变量 A A A B B B 是独立的,意味着事件 A A A 的发生跟事件 B B B 的发生无关。根据贝叶斯定理,马上就能得到 P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P(AB)=P(A)

独立性的一个常见例子是抛硬币。抛掷一枚公平的硬币,事件 A A A 是出现正面,事件 B B B 是出现反面。因为硬币的每一面出现都是相互独立的,所以事件 A A A 发生不影响事件 B B B 发生的概率,反之亦然。因此,事件 A 和事件 B 是独立的。

独立性在统计学和概率论中非常有用,它简化了我们对事件之间关系的理解。如果我们知道两个事件是独立的,那么我们就可以将它们的概率分开来考虑,而不需要考虑它们之间的任何关系。


期望与方差

期望描述了一个随机变量在多次重复实验中平均可能取得的值。
E x P [ f ( x ) ] = ∑ x f ( x ) P ( x ) E_{x~P}[f(x)]=\sum _x f(x)P(x) Ex P[f(x)]=xf(x)P(x)

方差衡量的是随机变量分布中采样不同的 x x x 值时,函数值偏离该函数的期望的程度。
V a r [ f ( x ) ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] Var[f(x)]=E[(f(x)-E[f(x)])^2] Var[f(x)]=E[(f(x)E[f(x)])2]


小结

  • 我们可以从概率分布中采样;
  • 我们可以使用联合分布、条件分布、Bayes 定理、边缘化和独立性假设等来分析多个随机变量;
  • 期望和方差为概率分布的关键特征的概括提供了实用的度量形式。

以上
本节概率论内容全部为理论知识。实践部分将在后续博文中逐步展现。

2024.2.15

相关文章:

  • uniapp如何给视频组件设置图片
  • leetcode135. 分发糖果
  • 6、内网安全-横向移动WmiSmbCrackMapExecProxyChainsImpacket
  • C语言指针(初阶)
  • Docker 第十四章 : Docker 三剑客之 Machine
  • STM32 寄存器操作 GPIO 与下降沿中断
  • 论文阅读:四足机器人对抗运动先验学习稳健和敏捷的行走
  • #免费 苹果M系芯片Macbook电脑MacOS使用Bash脚本写入(读写)NTFS硬盘教程
  • Simulink模块说明
  • 云计算基础-网络虚拟化
  • 备战蓝桥杯---图论之最短路dijkstra算法
  • Spring-面试题
  • Linux 目录结构结构
  • 循序渐进-讲解Markdown进阶(Mermaid绘图)-附使用案例
  • docker (五)-docker存储-数据持久化
  • Android路由框架AnnoRouter:使用Java接口来定义路由跳转
  • Java 9 被无情抛弃,Java 8 直接升级到 Java 10!!
  • JavaScript HTML DOM
  • k个最大的数及变种小结
  • linux安装openssl、swoole等扩展的具体步骤
  • Puppeteer:浏览器控制器
  • SegmentFault 社区上线小程序开发频道,助力小程序开发者生态
  • SpiderData 2019年2月25日 DApp数据排行榜
  • 分享自己折腾多时的一套 vue 组件 --we-vue
  • 给新手的新浪微博 SDK 集成教程【一】
  • 基于游标的分页接口实现
  • 码农张的Bug人生 - 见面之礼
  • 设计模式 开闭原则
  • 使用权重正则化较少模型过拟合
  • 王永庆:技术创新改变教育未来
  • 问:在指定的JSON数据中(最外层是数组)根据指定条件拿到匹配到的结果
  • 译米田引理
  • Java性能优化之JVM GC(垃圾回收机制)
  • 第二十章:异步和文件I/O.(二十三)
  • 分布式关系型数据库服务 DRDS 支持显示的 Prepare 及逻辑库锁功能等多项能力 ...
  • 数据可视化之下发图实践
  • (4.10~4.16)
  • (vue)el-checkbox 实现展示区分 label 和 value(展示值与选中获取值需不同)
  • (论文阅读26/100)Weakly-supervised learning with convolutional neural networks
  • (五)网络优化与超参数选择--九五小庞
  • .net core 连接数据库,通过数据库生成Modell
  • .NET 编写一个可以异步等待循环中任何一个部分的 Awaiter
  • .Net6支持的操作系统版本(.net8已来,你还在用.netframework4.5吗)
  • .net的socket示例
  • .net使用excel的cells对象没有value方法——学习.net的Excel工作表问题
  • .net中生成excel后调整宽度
  • .sdf和.msp文件读取
  • /3GB和/USERVA开关
  • @property括号内属性讲解
  • [2544]最短路 (两种算法)(HDU)
  • [BT]BUUCTF刷题第4天(3.22)
  • [C++]C++入门--引用
  • [CareerCup] 13.1 Print Last K Lines 打印最后K行
  • [CF407E]k-d-sequence
  • [docker] Docker容器服务更新与发现之consul