当前位置: 首页 > news >正文

sheng的学习笔记-AI-半监督聚类

AI目录:sheng的学习笔记-AI目录-CSDN博客

半监督学习:sheng的学习笔记-AI-半监督学习-CSDN博客 

聚类:sheng的学习笔记-AI-聚类(Clustering)-CSDN博客

均值算法:sheng的学习笔记-AI-K均值算法_k均值算法怎么算迭代两次后的最大值-CSDN博客

什么是半监督聚类

聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过半监督聚类(semi-supervised clustering)来利用监督信息以获得更好的聚类效果。

聚类任务中获得的监督信息大致有两种类型。

  1. 第一种类型是“必连”(must-link)与“勿连”(cannot-link)约束,前者是指样本必属于同一个簇,后者是指样本必不属于同一个簇;
  2. 第二种类型的监督信息则是少量的有标记样本。

约束 k 均值算法

什么是约束k均值

约束k均值(Constrained k-means)算法是利用第一类监督信息的代表。

给定样本集D={x1,x2,...,xm}以及“必连”关系集合M和“勿连”关系集合C,(xi,xj)∈M表示xi与xj必属于同簇,(xi,xj)∈C表示xi与xj必不属于同簇。

该算法是K均值算法的扩展,它在聚类过程中要确保M与C中的约束得以满足,否则将返回错误提示

算法

解释如下

 数据表现

令样本x4与x25,x12与x20,x14与x17之间存在必连约束,x2与x21,x13与x23,x19与x23之间存在勿连约束,即

M={(x4,x25),(x25,x4),(x12,x20),(x20,x12),(x14,x17),(x17,x14)},

C={(x2,x21),(x21,x2),(x13,x23),(x23,x13),(x19,x23),(x23,x19)}。

设聚类簇数K=3,随机选取样本x6,x12,x27作为初始均值向量

图13.8 西瓜数据集4.0上约束K均值算法(K=3)在各轮迭代后的结果。

样本点与均值向量分别用“∙”与“+”表示,必连约束和勿连约束分别用实线段与虚线段表示,红色虚线显示出簇划分。

显示出约束K均值算法在不同迭代轮数后的聚类结果。经5轮迭代后均值向量不再发生变化(与第4轮迭代相同)​,于是得到最终聚类结果

C1={x3,x5,x7,x9,x13,x14,x16,x17,x21};

C2={x6,x8,x10,x11,x12,x15,x18,x19,x20};

C3={x1,x2,x4,x22,x23,x24,x25,x26,x27,x28,x29,x30}。

约束种子 k 均值算法

什么是约束种子 k 均值

约束种子 k 均值Constrained Seed k-means算法是利用第二类监督的代表。

给定样本集D={x1,x2,...,xm},假定少量的有标记样本为,其中为隶属于第k个聚类簇的样本。

这样的监督信息利用起来很容易:直接将它们作为“种子”​,用它们初始化k均值算法的k个聚类中心,并且在聚类簇迭代更新过程中不改变种子样本的簇隶属关系。这样就得到了约束种子k均值(Constrained Seedk-means)算法

算法代码

解释如下 

数据表现

仍以西瓜数据集4.0为例,

假定作为种子的有标记样本为S1={x4,x25},S2={x12,x20},S3={x14,x17}。

 以这三组种子样本的平均向量作为初始均值向量,图13.10显示出约束种子k均值算法在不同迭代轮数后的聚类结果。经4轮迭代后均值向量不再发生变化(与第3轮迭代相同)​,于是得到最终聚类结果

C1={x1,x2,x4,x22,x23,x24,x25,x26,x27,x28,x29,x30};

C2={x6,x7,x8,x10,x11,x12,x15,x18,x19,x20};

C3={x3,x5,x9,x13,x14,x16,x17,x21}。

图13.10 西瓜数据集4.0上约束种子k均值算法(k=3)在各轮迭代后的结果。

样本点与均值向量分别用“∙”与“+”表示,种子样本点为红色,红色虚线显示出簇划分。

参考文章

12.半监督学习 - 五、半监督聚类 - 《AI算法工程师手册》 - 书栈网 · BookStack

14 半监督学习 - 14.4 半监督聚类 - 《周志华《机器学习》学习笔记》 - 书栈网 · BookStack

书:机器学习 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Golang时间格式化的陷阱与解决方案
  • 一点小小的做事经验
  • 5Kg负重30分钟长航时多旋翼无人机详解
  • Linux命令行更换yum源repo为阿里源-centos7
  • CSS中的`z-index`属性是如何工作(注意事项)
  • idea对项目中的文件操作没有权限
  • Stable Diffusion绘画 | LightFlow工作流插件:一键导入,高效生图
  • URP custompasscustom render objects
  • JAVA中有关锁的详解
  • Stable Diffusion 使用详解(10)--- 场景立体字
  • Docker php文件本地包含--pearcmd.php利用
  • 【vSphere 7/8】深入浅出 vSphere 证书 Ⅲ—— vSphere 证书的更新和替换概述
  • 泛微E9开发 获取浏览按钮的显示值
  • C++编程:理解左值(lvalue)和右值(rvalue)
  • Datawhale X 李宏毅苹果书 AI夏令营 Task 2
  • [Vue CLI 3] 配置解析之 css.extract
  • [分享]iOS开发 - 实现UITableView Plain SectionView和table不停留一起滑动
  • 《微软的软件测试之道》成书始末、出版宣告、补充致谢名单及相关信息
  • 「前端」从UglifyJSPlugin强制开启css压缩探究webpack插件运行机制
  • 4月23日世界读书日 网络营销论坛推荐《正在爆发的营销革命》
  • CentOS从零开始部署Nodejs项目
  • Javascripit类型转换比较那点事儿,双等号(==)
  • Javascript 原型链
  • JAVA并发编程--1.基础概念
  • Mysql优化
  • node-glob通配符
  • NSTimer学习笔记
  • Odoo domain写法及运用
  • 创建一个Struts2项目maven 方式
  • 记一次用 NodeJs 实现模拟登录的思路
  • 前端临床手札——文件上传
  • 数据科学 第 3 章 11 字符串处理
  • 小程序 setData 学问多
  • 【运维趟坑回忆录】vpc迁移 - 吃螃蟹之路
  • mysql 慢查询分析工具:pt-query-digest 在mac 上的安装使用 ...
  • ​水经微图Web1.5.0版即将上线
  • ​一文看懂数据清洗:缺失值、异常值和重复值的处理
  • # Pytorch 中可以直接调用的Loss Functions总结:
  • #AngularJS#$sce.trustAsResourceUrl
  • #我与Java虚拟机的故事#连载07:我放弃了对JVM的进一步学习
  • #职场发展#其他
  • (1综述)从零开始的嵌入式图像图像处理(PI+QT+OpenCV)实战演练
  • (2)(2.10) LTM telemetry
  • (42)STM32——LCD显示屏实验笔记
  • (6)设计一个TimeMap
  • (delphi11最新学习资料) Object Pascal 学习笔记---第14章泛型第2节(泛型类的类构造函数)
  • (博弈 sg入门)kiki's game -- hdu -- 2147
  • (超简单)使用vuepress搭建自己的博客并部署到github pages上
  • (附源码)springboot学生选课系统 毕业设计 612555
  • (附源码)计算机毕业设计ssm高校《大学语文》课程作业在线管理系统
  • (官网安装) 基于CentOS 7安装MangoDB和MangoDB Shell
  • (三)Pytorch快速搭建卷积神经网络模型实现手写数字识别(代码+详细注解)
  • (十六)串口UART
  • (原創) 如何刪除Windows Live Writer留在本機的文章? (Web) (Windows Live Writer)
  • (转)3D模板阴影原理