当前位置: 首页 > news >正文

贝叶斯分类器

贝叶斯分类器

Category: 机器学习听课笔记
Last Edited: Oct 10, 2018 9:43 PM
Tags: 听课笔记,机器学习
注:本文非完全原创,很多公式和例子借鉴于各位前辈。

先导知识

1072375-20181011101243179-1897302434.png

  1. 贝叶斯决策论:贝叶斯决策论考虑如何基于已知的概率和误判损失来选择最优的类别标记。
  2. 先验概率(prior probability):是指根据以往经验和分析得到的概率。即没有考虑原因,在获得数据和依据之前就对概率进行了猜测,得到了概率。
  3. 似然函数(likelihood function):似然用来描述已知随机变量输出结果时,未知参数的可能取值。似然函数关注的是由已知的结果和某固有属性的关系,而不是结果或者原因的概率,所以称似然是对固有属性的拟合,所以不能称之为概率。
  4. 后验概率(Posterior probability):是在相关证据或者背景给定并纳入考虑之后的条件概率。是由因及果的概率。
  5. 先验分布:根据一般的经验认为随机变量应该满足的分布

    后验分布:通过当前训练数据修正的随机变量的分布,比先验分布更符合当前数据

    似然估计:已知训练数据,给定了模型,通过让似然性极大化估计模型参数的一种方法

    后验分布往往是基于先验分布和极大似然估计计算出来的。

  6. 先验、似然、后验的区分总结:

    1)先验——根据若干年的统计(经验)或者气候(常识),某地方下雨的概率;

    2)似然——下雨(果)的时候有乌云(因/证据/观察的数据)的概率,即已经有了果,对证据发生的可能性描述;

    3)后验——根据天上有乌云(原因或者证据/观察数据),下雨(结果)的概率;

    后验 ~ 先验*似然 : 存在下雨的可能(先验),下雨之前会有乌云(似然)~ 通过现在有乌云推断下雨概率(后验);

    或者:

    设定背景:酒至半酣,忽阴云漠漠,骤雨将至。

    情景一:“天不会下雨的,历史上这里下雨的概率是20%”----先验概率“但阴云漠漠时,下雨的概率是80%”----后验概率

    情景二:“飞飞别急着走啊,历史上酒桌上死人的概率只有5%“----先验概率”可他是曹操啊,梦里都杀人“----后验概率

  7. 最大似然估计(Maximum Likelihood Estimation):最大似然估计是利用已知的样本的结果,在使用某个模型的基础上,反推有可能导致这样结果的模型参数值。
  8. 贝叶斯公式:
    1.   在通常情况下,“事件A在事件B发生的条件下的概率”与“事件B在事件A发生的条件下的概率”是不一样的,但两者的关系是确定的,贝叶斯公式研究的就是这种关系。
    2. 公式:

      1072375-20181011101346472-303436939.png

    3. 解释:
      1. P(A|B)为后验概率,即指事件B发生的条件下事件A发生的概率,因为该概率得自于B的取值而称为A的后验概率。
      2. P(A)为先验概率(边缘概率),即A的发生不用考虑B的任何方面的因素。
      3. P(B|A)为条件概率(类条件概率密度),即指在事件A发生的条件下事件B发生的概率,和1一样被称为B的后验概率。—>称为似然
      4. P(B)为”用于归一化的证据因子(evidence)“可以当成一个已知的量,在贝叶斯分类器种P(B)的值与分类无关。
  9. 正态分布(高斯分布):

    1072375-20181011101431939-1715333180.png
    1072375-20181011101452175-1935332296.png
  10. 多源正态分布:
    1. 个人理解:将二分类的高斯分布扩展为多个分类的问题。定义详见:https://www.cnblogs.com/bingjianing/p/9117330.html
    2. 包含了标准化、归化等过程。

1072375-20181011101537128-1349869931.png
左图为多源高斯分布示意 右图为多远高斯分布的归化过程
---

(以上为先导概率论知识)

贝叶斯分类器

  1. 贝叶斯决策论:
    1. 前提:所有相关概率已知
    2. 关注点:误判损失
  2. 期望损失(风险):在N种可能的标记种,λij是指将Cj误分为Ci时所产生的损失。基于后验概率:P(ci|x)得到误分为Ci时所产生的期望损失,这个损失也叫做”风险“,当我们制定一个准则h使得对于每一个样本x风险最小时(此时整个样本的总体风险R(h*)贝叶斯风险)也达到最小),称h贝叶斯最优分类器

    1072375-20181011101900767-245164182.png

    期望损失(风险)表达式

    1072375-20181011101914832-1478083954.png

    总体风险表达式

    1072375-20181011101931402-1052427712.png

    使每个样本的风险最小

  3. 后验概率最大化与风险最小化:对于二分类问题,λ要么等于0要么等于1

    1072375-20181011102015144-2112395833.png

    • 此时所以条件风险(该条件下的风险)为

      1072375-20181011102028075-755415018.png

    • 所以当分类错误率达到最小时,需要后验概率P最小,继而使后验概率最大化就是使风险最小化。即:

      1072375-20181011102038464-1121423036.png

  4. 由3和贝叶斯公式得到,想获得最小风险需要获得最大的后验概率,想获得最大的后验概率需要获得最大的似然。以此引导出——>最大似然估计。

最大似然估计(Maximum Likelihood Estimation)

  1. 首先,我们的目标是:P(x|c)这一似然概率,根据频率学派的观点:

    参数虽然未知,当存在客观的固定值。

    我们假设似然概率被一个确定的θc控制,你那么我们的目标就是通过训练集来确定θ c的值,从而确定似然概率的值。

  2. 假设Dc表示训练集D上的第c类样本的集合,他们满足条件:样本服从独立分布,则参数θc对于数据集Dc的似然可以表示为:

    1072375-20181011102058850-1920005322.png

    形如:P(A|B)=P(AB)/P(B)

        两边取对数(对数似然):

    1072375-20181011102108815-781491134.png

    此时,θc最大时的最大似然估计表达式为:

    1072375-20181011102116915-1011868813.png

    不足:该方法严重依赖假设:存在客观的固定值。

  3. MLE估计结果的有偏和无偏性:
    1. 对于均值:无偏
    2. 对于反差:有偏,1/n要改为1/(n-1)
  4. 最大似然估计在样本不足的情况下会出现一个问题:假设我抛10次硬币,有7次是正面朝上,那么我的最大似然估计的概率就是0.7,但是根据常识我们的概率应该靠近0.5才对,这里就需要考虑先验概率。——>引出最大后验概率估计。

最大后验概率(Maximum a posteriori estimation)

  1. MAP和MLE的区别:最大似然估计是求参数θ, 使似然函数P(x|θ)最大。最大后验概率估计则是想求θ使P(x|θ)P(θ)最大。求得的θ不单单让似然函数大,θ自己出现的先验概率也得大。
  2. MAP的基本思想仍然是基于贝叶斯公式本身,MLE的目的是求出最大的似然估计值,而MAP的目的是求出最大的后验概率本身,在MLE的基础上加上了一个先验概率,他的表达式为:

    1072375-20181011102140409-580504590.png

  3. 主要区别在于贝叶斯学派和频率学派的区别。

朴素贝叶斯分类器

  1. 引导:
    1. 如果有d个样本,每个样本有2种状态0或1,维度为k????,那么他们的组合有2^dk-1种,但是当所有条件独立时,他们的结果有(2-1)dk-1种,使得参数大大减少。
    2. 所以,在该条件成立之上的朴素贝叶斯之所以叫做”朴素“是因为他需要满足”所有条件独立“这个条件。
  2. 朴素贝叶斯分类器所依赖的概率模型就是MAP和MLE。
  3. 应用:文本分类/垃圾邮件筛选等。

判别函数和决策边界(待补)

PAC Learning(待补)

转载于:https://www.cnblogs.com/NewBee-CHH/p/9770914.html

相关文章:

  • 【完整教程】新版直播频道上线,马上开始创建你的直播吧!
  • 如何用三个月学会python?
  • JDK11的工具的命令参考
  • MySQL缓存及变量
  • MySQL基础之 索引
  • 2.2 目录及文本文件操作命令
  • 等等!这两个 Spring-RabbitMQ 的坑我们已经替你踩了
  • 内存对齐
  • opencv提取保存轮廓图
  • Vue中注意target和currentTarget的使用
  • 并发-4-volatile
  • [SDOI2009]Elaxia的路线
  • ES学习笔记(12)--Symbol
  • Redis 中的布隆过滤器
  • json字符串 转换为数组
  • 【刷算法】从上往下打印二叉树
  • Angular6错误 Service: No provider for Renderer2
  • CSS实用技巧干货
  • ES6系列(二)变量的解构赋值
  • JavaScript/HTML5图表开发工具JavaScript Charts v3.19.6发布【附下载】
  • JS数组方法汇总
  • Promise初体验
  • Python语法速览与机器学习开发环境搭建
  • Rancher-k8s加速安装文档
  • Redis学习笔记 - pipline(流水线、管道)
  • Shadow DOM 内部构造及如何构建独立组件
  • spring + angular 实现导出excel
  • 创建一个Struts2项目maven 方式
  • 当SetTimeout遇到了字符串
  • 动态规划入门(以爬楼梯为例)
  • 坑!为什么View.startAnimation不起作用?
  • 强力优化Rancher k8s中国区的使用体验
  • 软件开发学习的5大技巧,你知道吗?
  • 山寨一个 Promise
  • 小试R空间处理新库sf
  • 掌握面试——弹出框的实现(一道题中包含布局/js设计模式)
  • LevelDB 入门 —— 全面了解 LevelDB 的功能特性
  • UI设计初学者应该如何入门?
  • 测评:对于写作的人来说,Markdown是你最好的朋友 ...
  • 大数据全解:定义、价值及挑战
  • ​Z时代时尚SUV新宠:起亚赛图斯值不值得年轻人买?
  • # 数论-逆元
  • #Js篇:单线程模式同步任务异步任务任务队列事件循环setTimeout() setInterval()
  • #NOIP 2014#Day.2 T3 解方程
  • #微信小程序(布局、渲染层基础知识)
  • #我与Java虚拟机的故事#连载01:人在JVM,身不由己
  • $分析了六十多年间100万字的政府工作报告,我看到了这样的变迁
  • (09)Hive——CTE 公共表达式
  • (1)Android开发优化---------UI优化
  • (1/2)敏捷实践指南 Agile Practice Guide ([美] Project Management institute 著)
  • (8)STL算法之替换
  • (AngularJS)Angular 控制器之间通信初探
  • (附源码)计算机毕业设计ssm基于Internet快递柜管理系统
  • (论文阅读笔记)Network planning with deep reinforcement learning
  • (万字长文)Spring的核心知识尽揽其中