当前位置: 首页 > news >正文

【深度学习】S2 数学基础 P6 概率论

目录

  • 基本概率论
    • 概率论公理
    • 随机变量
  • 多个随机变量
    • 联合概率
    • 条件概率
    • 贝叶斯定理
    • 求和法则
    • 独立性
  • 期望与方差
  • 小结

基本概率论

机器学习本质上,就是做出预测。而概率论提供了一种量化和表达不确定性水平的方法,可以帮助我们量化对某个结果的确定性程度。

在一个简单的图像分类任务中;

  • 如果我们非常确定图像中的对象是一只猫,那么我们可以说标签为 “猫” 的概率是 1,即 P ( y = “猫” ) = 1 P(y =“猫”) = 1 P(y=)=1;
  • 如果我们无法区分图像是猫还是狗,那么我们可以说两者出现的概率相等,即 P ( y = “猫” ) = P ( y = “狗” ) = 0.5 P(y =“猫”) = P(y =“狗”) = 0.5 P(y=)=P(y=)=0.5;
  • 如果我们对图像是否为猫不太确定,我们可以将概率设置在一个介于 0.5 和 1 之间的值,表示我们对其为猫的确定性程度不是完全的,但比完全不确定要高。

这种概率的量化和比较使得我们可以更加客观和量化地评估和处理不确定性。

概率论公理

概率论名词:

  • 样本空间:所有可能结果的集合;
  • 事件:给定样本空间的一个子集;
  • 概率:将集合映射到真实值的函数,反映了事件发生的可能性;

概率论公理:

  • 对于任意事件,其概率从不会是负数;
  • 整个样本空间的概率为 1;
  • 对于互斥事件(A、B、C互斥),有 P ( A ∪ B ∪ C ) = P ( A ) + P ( B ) + P ( C ) P(A∪B∪C)=P(A) + P(B) + P(C) P(ABC)=P(A)+P(B)+P(C)

随机变量

随机变量是将样本空间中的每个结果映射到一个实数集上的函数;

e . g . e.g. e.g. 以掷一个六面的骰子为例,其样本空间 S S S 包含所有可能的结果,即 S = { 1 , 2 , 3 , 4 , 5 , 6 } S = \{1, 2, 3, 4, 5, 6\} S={1,2,3,4,5,6}。我们定义一个随机变量 X X X,它将每个结果映射到一个实数。这里假设我们设定 X = x 2 + 1 X = x^2+1 X=x2+1,其中 x x x 为骰子的结果。

那么我们可以计算出每个结果对应的 X X X 值:

  • x = 1 x=1 x=1 时, X = x 2 + 1 = 2 X = x^2+1=2 X=x2+1=2
  • x = 2 x=2 x=2 时, X = x 2 + 1 = 5 X = x^2+1=5 X=x2+1=5
  • x = 3 x=3 x=3 时, X = x 2 + 1 = 10 X = x^2+1=10 X=x2+1=10
  • x = 4 x=4 x=4 时, X = x 2 + 1 = 17 X = x^2+1=17 X=x2+1=17
  • x = 5 x=5 x=5 时, X = x 2 + 1 = 26 X = x^2+1=26 X=x2+1=26
  • x = 6 x=6 x=6 时, X = x 2 + 1 = 37 X = x^2+1=37 X=x2+1=37

因此,离散随机变量 X X X 的可能取值为 {2, 5, 10, 17, 26, 37};在公平骰子的情况下,每个结果出现的概率是相等的,出现的概率都为 1 6 \frac 1 6 61


多个随机变量

联合概率

联合概率 P ( A = a , B = b ) P(A=a, B=b) P(A=a,B=b) 描述的是事件 A A A 发生且事件 B B B 也发生的概率。具体来说,它表示在所有可能的情况中,事件 A A A 结果为 a a a 且事件 B B B 结果为 b b b 的这种情况出现的概率是多少。

隐含在这个概念中的概率定律是,事件 A A A 和事件 B B B 同时发生的概率不会超过事件 A A A 或者事件 B B B 单独发生的概率。即 P ( A = a , B = b ) ≤ P ( A = a ) P(A=a, B=b) ≤ P(A=a) P(A=a,B=b)P(A=a)

条件概率

而联合概率不等式的变形:
0 ≤ P ( A = a , B = b ) P ( A = a ) ≤ 1 0 ≤ \frac {P(A=a, B=b)} {P(A=a)} ≤ 1 0P(A=a)P(A=a,B=b)1

这个比率称为条件概率,并用 P ( B = b ∣ A = a ) P(B=b|A=a) P(B=bA=a) 来表示。他是 B = b B=b B=b 的概率,前提是 A = a A=a A=a 已发生。

完整公式为: P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac {P(AB)} {P(A)} P(BA)=P(A)P(AB)

贝叶斯定理

根据条件概率的定义,我们可以得出统计学最有用的方程之一:Bayes 贝叶斯定理。
P ( A ∣ B ) = P ( B ∣ A ) ⋅ P ( A ) P ( B ) P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} P(AB)=P(B)P(BA)P(A)

贝叶斯定理的直观含义是,当我们观察到事件 B B B 发生时,事件 A A A 发生的概率会根据事件 B B B 发生的概率和对事件 A A A B B B 相关性的了解而改变。贝叶斯定理是一种强大的工具,可以帮助我们在有新的证据出现时更新我们对某个假设的信念。

求和法则

根据求和法则, P ( B ) = ∑ A P ( A , B ) P(B)=\sum_{A}P(A,B) P(B)=AP(A,B)

B B B 的概率相当于计算 A A A 的所有可能选择,并将所有选择联合概率聚合在一起。

独立性

如果两个随机变量 A A A B B B 是独立的,意味着事件 A A A 的发生跟事件 B B B 的发生无关。根据贝叶斯定理,马上就能得到 P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P(AB)=P(A)

独立性的一个常见例子是抛硬币。抛掷一枚公平的硬币,事件 A A A 是出现正面,事件 B B B 是出现反面。因为硬币的每一面出现都是相互独立的,所以事件 A A A 发生不影响事件 B B B 发生的概率,反之亦然。因此,事件 A 和事件 B 是独立的。

独立性在统计学和概率论中非常有用,它简化了我们对事件之间关系的理解。如果我们知道两个事件是独立的,那么我们就可以将它们的概率分开来考虑,而不需要考虑它们之间的任何关系。


期望与方差

期望描述了一个随机变量在多次重复实验中平均可能取得的值。
E x P [ f ( x ) ] = ∑ x f ( x ) P ( x ) E_{x~P}[f(x)]=\sum _x f(x)P(x) Ex P[f(x)]=xf(x)P(x)

方差衡量的是随机变量分布中采样不同的 x x x 值时,函数值偏离该函数的期望的程度。
V a r [ f ( x ) ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] Var[f(x)]=E[(f(x)-E[f(x)])^2] Var[f(x)]=E[(f(x)E[f(x)])2]


小结

  • 我们可以从概率分布中采样;
  • 我们可以使用联合分布、条件分布、Bayes 定理、边缘化和独立性假设等来分析多个随机变量;
  • 期望和方差为概率分布的关键特征的概括提供了实用的度量形式。

以上
本节概率论内容全部为理论知识。实践部分将在后续博文中逐步展现。

2024.2.15

相关文章:

  • 【实战】一、Jest 前端自动化测试框架基础入门(四) —— 前端要学的测试课 从Jest入门到TDD BDD双实战(四)
  • 【Java万花筒】事件溯源:探索完整状态历史记录的奇妙之旅
  • Django后端开发——模型层及ORM介绍
  • disql备份还原
  • 飞天使-k8s知识点18-kubernetes实操3-pod的生命周期
  • 普中51单片机学习(八)
  • UE4 C++联网RPC教程笔记(一)(第1~4集)
  • 生成式 AI - Diffusion 模型的数学原理(4)
  • CVE-2022-24652 漏洞复现
  • 嵌入式面试:瑞芯微
  • 【ArcGIS微课1000例】0103:导出点、线、面要素的折点坐标值
  • Code Composer Studio (CCS) - Breakpoint (断点)
  • 【数据结构与算法】图的搜索——广度优先遍历、最小生成树
  • Java基础知识学习:深入理解Java中的类与对象,Java重要知识点概念性解释,结合实例讲解请看下一篇博文
  • Ansible file文件模块 设置文件的属性,比如创建文件、创建链接文件、删除文件
  • 《Javascript高级程序设计 (第三版)》第五章 引用类型
  • css的样式优先级
  • echarts的各种常用效果展示
  • IE报vuex requires a Promise polyfill in this browser问题解决
  • js继承的实现方法
  • 湖南卫视:中国白领因网络偷菜成当代最寂寞的人?
  • 经典排序算法及其 Java 实现
  • 前端设计模式
  • 时间复杂度与空间复杂度分析
  • 腾讯大梁:DevOps最后一棒,有效构建海量运营的持续反馈能力
  • 我有几个粽子,和一个故事
  • 一个项目push到多个远程Git仓库
  • 一些关于Rust在2019年的思考
  • 鱼骨图 - 如何绘制?
  • Semaphore
  • ​iOS安全加固方法及实现
  • ​马来语翻译中文去哪比较好?
  • (1/2)敏捷实践指南 Agile Practice Guide ([美] Project Management institute 著)
  • (14)目标检测_SSD训练代码基于pytorch搭建代码
  • (175)FPGA门控时钟技术
  • (c语言)strcpy函数用法
  • (MATLAB)第五章-矩阵运算
  • (每日持续更新)jdk api之FileFilter基础、应用、实战
  • (转)AS3正则:元子符,元序列,标志,数量表达符
  • (转)关于pipe()的详细解析
  • **PHP二维数组遍历时同时赋值
  • .[hudsonL@cock.li].mkp勒索病毒数据怎么处理|数据解密恢复
  • .a文件和.so文件
  • .bat批处理出现中文乱码的情况
  • .bat文件调用java类的main方法
  • .gitattributes 文件
  • .NET 5.0正式发布,有什么功能特性(翻译)
  • .NET Core 和 .NET Framework 中的 MEF2
  • .net MVC中使用angularJs刷新页面数据列表
  • .NET上SQLite的连接
  • .NET应用架构设计:原则、模式与实践 目录预览
  • .NET中 MVC 工厂模式浅析
  • /proc/stat文件详解(翻译)
  • @JsonFormat与@DateTimeFormat注解的使用
  • @Transactional类内部访问失效原因详解