当前位置: 首页 > news >正文

sheng的学习笔记-AI-半监督学习

AI目录:sheng的学习笔记-AI目录-CSDN博客

基础知识

什么是半监督学习

我们在丰收季节来到瓜田,满地都是西瓜,瓜农抱来三四个瓜说这都是好瓜,然后再指着地里的五六个瓜说这些还不好,还需再生长若干天。基于这些信息,我们能否构建一个模型,用于判别地里的哪些瓜是已该采摘的好瓜?显然,可将瓜农告诉我们的好瓜、不好的瓜分别作为正例和反例来训练一个分类器

但如果瓜农无法提供大量的好瓜/不好的瓜 的标记,那就需要根据已经提供的少量标记,来学习大量未标记的数据

让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习(semi-supervised learning)。

半监督使用场景

半监督学习的现实需求非常强烈,因为在现实应用中往往能容易地收集到大量未标记样本,而获取“标记”却需耗费人力、物力。​“有标记数据少,未标记数据多”这个现象在互联网应用中更明显,

例如,在进行计算机辅助医学影像分析时,可以从医院获得大量医学影像,但若希望医学专家把影像中的病灶全都标识出来则是不现实的。

例如在进行网页推荐时需请用户标记出感兴趣的网页,但很少有用户愿花很多时间来提供标记,因此,有标记网页样本少,但互联网上存在无数网页可作为未标记样本来使用。

未标记样本的分布与已标记样本的分布的关联做出假设

要利用未标记样本,必然要做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设

聚类假设

最常见的是“聚类假设”(cluster assumption),即假设数据存在簇结构,同一个簇的样本属于同一个类别,由于待预测样本与正例样本通过未标记样本的“撮合”聚在一起,与相对分离的反例样本相比,待判别样本更可能属于正类

 流形假设

另一种常见的假设是“流形假设”(manifold assumption),即假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值。​“

邻近”程度常用“相似”程度来刻画,因此,流形假设可看作聚类假设的推广,但流形假设对输出值没有限制,因此比聚类假设的适用范围更广,可用于更多类型的学习任务。事实上,无论聚类假设还是流形假设,其本质都是“相似的样本拥有相似的输出”这个基本假设。

纯(pure)半监督学习和直推学习(transductive learning)

纯(pure)半监督学习

假定训练数据中的未标记样本并非待预测的数据,是基于“开放世界”假设,希望学得模型能适用于训练过程中未观察到的数据

直推学习(transductive learning)

假定学习过程中所考虑的未标记样本恰是待预测数据,学习的目的就是在这些未标记样本上获得最优泛化性能,基于“封闭世界”假设,仅试图对学习过程中观察到的未标记数据进行预测

参考文章:

统计学习 - 12.半监督学习 - 《AI算法工程师手册》 - 书栈网 · BookStack

 书:机器学习(号称西瓜书)

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Kubernetes中的Kube-proxy:服务发现与负载均衡的基石
  • Java—双列集合
  • 数据库管理-第234期 2024DTCC,一场数据库盛宴(20240826)
  • debian12 - systemctl 根据状态值判断服务启动成功的依据
  • 机器学习第五十三周周报 MAG
  • 云手机解决了TikTok哪些账号运营难题?
  • 将标准输入stdin转换成命令行参数——Unix中的xargs指令
  • 手机快充头哪个牌子好?倍思65W伸缩线充电器交出优秀答卷
  • SQL注入-SQL注入基础-SQL注入流程
  • uniapp 向左滑动进入下一题,向右滑动进入上一题功能实现
  • 告警中心消息转发系统PrometheusAlert
  • 如何使用Python自动化测试工具Selenium进行网页自动化?
  • postgresql 集群文档
  • minio 大视频观看,下载
  • 游戏引擎详解——图片
  • ----------
  • 《Javascript数据结构和算法》笔记-「字典和散列表」
  • 《用数据讲故事》作者Cole N. Knaflic:消除一切无效的图表
  • iOS动画编程-View动画[ 1 ] 基础View动画
  • Javascripit类型转换比较那点事儿,双等号(==)
  • JavaScript的使用你知道几种?(上)
  • Java知识点总结(JDBC-连接步骤及CRUD)
  • ReactNative开发常用的三方模块
  • Spring Cloud(3) - 服务治理: Spring Cloud Eureka
  • vue从创建到完整的饿了么(11)组件的使用(svg图标及watch的简单使用)
  • Wamp集成环境 添加PHP的新版本
  • 编写符合Python风格的对象
  • 简单数学运算程序(不定期更新)
  • 精彩代码 vue.js
  • 如何利用MongoDB打造TOP榜小程序
  • 学习使用ExpressJS 4.0中的新Router
  • 用Canvas画一棵二叉树
  • 在Mac OS X上安装 Ruby运行环境
  • d²y/dx²; 偏导数问题 请问f1 f2是什么意思
  • 关于Android全面屏虚拟导航栏的适配总结
  • 如何在 Intellij IDEA 更高效地将应用部署到容器服务 Kubernetes ...
  • ​必胜客礼品卡回收多少钱,回收平台哪家好
  • (3)选择元素——(17)练习(Exercises)
  • (7)STL算法之交换赋值
  • (ros//EnvironmentVariables)ros环境变量
  • (二)原生js案例之数码时钟计时
  • (附源码)ssm高校社团管理系统 毕业设计 234162
  • (附源码)计算机毕业设计SSM在线影视购票系统
  • (函数)颠倒字符串顺序(C语言)
  • (每日一问)计算机网络:浏览器输入一个地址到跳出网页这个过程中发生了哪些事情?(废话少说版)
  • (五)activiti-modeler 编辑器初步优化
  • (转)chrome浏览器收藏夹(书签)的导出与导入
  • (最全解法)输入一个整数,输出该数二进制表示中1的个数。
  • ***php进行支付宝开发中return_url和notify_url的区别分析
  • .net 7和core版 SignalR
  • .Net Core 中间件验签
  • .NET core 自定义过滤器 Filter 实现webapi RestFul 统一接口数据返回格式
  • .Net 访问电子邮箱-LumiSoft.Net,好用
  • .NET/C# 中你可以在代码中写多个 Main 函数,然后按需要随时切换
  • .Net8 Blazor 尝鲜