当前位置: 首页 > news >正文

机器学习第12天:聚类

文章目录

机器学习专栏

无监督学习介绍

聚类

K-Means

使用方法

实例演示

代码解析

绘制决策边界

本章总结


机器学习专栏

机器学习_Nowl的博客-CSDN博客

 

无监督学习介绍

某位著名计算机科学家有句话:“如果智能是蛋糕,无监督学习将是蛋糕本体,有监督学习是蛋糕上的糖霜,强化学习是蛋糕上的樱桃”

现在的人工智能大多数应用有监督学习,但无监督学习的世界也是广阔的,因为如今大部分的数据都是没有标签的

上一篇文章讲到的降维就是一种无监督学习技术,我们将在本章介绍聚类


聚类

聚类是指发现数据集中集群的共同点,在没有人为标注的情况下将数据集区分为指定数量的类别

K-Means

K-Means是一种简单的聚类算法。能快速,高效地对数据集进行聚类


使用方法

from sklearn.cluster import KMeansmodel = KMeans(n_clusters=3)
model.fit(data)

 这段代码导入了KMeans机器学习库,指定模型将数据划分为三类


实例演示

import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt# 生成一些随机数据作为示例
np.random.seed(42)
data = np.random.rand(100, 2)  # 100个数据点,每个点有两个特征# 指定要分成的簇数(可以根据实际情况调整)
num_clusters = 3# 使用KMeans算法进行聚类
kmeans = KMeans(n_clusters=num_clusters)
kmeans.fit(data)# 获取每个数据点的所属簇标签
labels = kmeans.labels_# 获取每个簇的中心点
centroids = kmeans.cluster_centers_print(centroids)
# # 可视化结果
for i in range(num_clusters):cluster_points = data[labels == i]plt.scatter(cluster_points[:, 0], cluster_points[:, 1], label=f'Cluster {i + 1}')# 绘制簇中心点
plt.scatter(centroids[:, 0], centroids[:, 1], marker='X', s=200, color='red', label='Centroids')plt.scatter(centroids[0][0], centroids[0][1])plt.title('K-means Clustering')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend(loc='upper right')
plt.show()


代码解析

  1. 导入必要的库: 导入NumPy用于生成随机数据,导入KMeans类从scikit-learn中进行K-means聚类,导入matplotlib.pyplot用于可视化。

  2. 生成随机数据: 使用NumPy生成一个包含100个数据点的二维数组,每个数据点有两个特征。

  3. 指定簇的数量:num_clusters设置为希望的簇数,这里设置为3。

  4. 应用K-means算法: 创建KMeans对象,指定簇的数量,然后使用fit方法拟合数据。模型训练完成后,每个数据点将被分配到一个簇,并且簇中心点将被计算。

  5. 获取簇标签和中心点: 使用labels_属性获取每个数据点的簇标签,使用cluster_centers_属性获取每个簇的中心点。

  6. 可视化聚类结果: 使用循环遍历每个簇,绘制簇中的数据点。然后,使用scatter函数绘制簇中心点,并为图添加标题、轴标签和图例。

  7. 显示图形: 最后,使用show方法显示可视化结果


绘制决策边界

我们使用网格坐标和predict方法生成决策边界,然后使用contour函数在图上绘制边界。

主要代码

import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt# 生成一些随机数据作为示例
np.random.seed(42)
data = np.random.rand(100, 2)  # 100个数据点,每个点有两个特征# 指定要分成的簇数(可以根据实际情况调整)
num_clusters = 3# 使用KMeans算法进行聚类
kmeans = KMeans(n_clusters=num_clusters)
kmeans.fit(data)# 获取每个数据点的所属簇标签
labels = kmeans.labels_# 获取每个簇的中心点
centroids = kmeans.cluster_centers_# 可视化结果,包括决策边界
for i in range(num_clusters):cluster_points = data[labels == i]plt.scatter(cluster_points[:, 0], cluster_points[:, 1], label=f'Cluster {i + 1}')# 绘制簇中心点
plt.scatter(centroids[:, 0], centroids[:, 1], marker='X', s=200, color='red', label='Centroids')# 绘制决策边界
h = 0.02  # 步长
x_min, x_max = data[:, 0].min() - 1, data[:, 0].max() + 1
y_min, y_max = data[:, 1].min() - 1, data[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
Z = kmeans.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)plt.contour(xx, yy, Z, colors='gray', linewidths=1, alpha=0.5)  # 绘制决策边界plt.title('K-means Clustering with Decision Boundaries')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.show()


本章总结

  • 无监督学习的意义
  • 聚类的定义
  • K-Means方法聚类
  • 绘制K-Means决策边界

相关文章:

  • python二叉树链树_树的链式存储结构
  • yum仓库
  • 第二十章:多线程
  • 【Docker】从零开始:2.Docker三要素
  • 3、LeetCode之无重复字符的最长子串
  • CSGO搬砖干货,全网最详细教学!
  • 【深度学习】Transformer简介
  • 从权限跳转看Activity的data android:scheme
  • 男生学什么设计专业好优漫教育
  • Python+Qt虹膜检测识别
  • git stash 用法总结
  • 【GUI】-- 10 贪吃蛇小游戏之静态面板绘制
  • SpringCloud微服务注册中心:Nacos介绍,微服务注册,Ribbon通信,Ribbon负载均衡,Nacos配置管理详细介绍
  • 数据结构 线性表
  • CURL踩坑记录
  • 8年软件测试工程师感悟——写给还在迷茫中的朋友
  • Angular4 模板式表单用法以及验证
  • bearychat的java client
  • JavaScript/HTML5图表开发工具JavaScript Charts v3.19.6发布【附下载】
  • JavaScript异步流程控制的前世今生
  • java概述
  • LeetCode算法系列_0891_子序列宽度之和
  • Logstash 参考指南(目录)
  • PAT A1050
  • webpack入门学习手记(二)
  • XML已死 ?
  • 发布国内首个无服务器容器服务,运维效率从未如此高效
  • 盘点那些不知名却常用的 Git 操作
  • 区块链技术特点之去中心化特性
  • 云栖大讲堂Java基础入门(三)- 阿里巴巴Java开发手册介绍
  • 组复制官方翻译九、Group Replication Technical Details
  • ​一文看懂数据清洗:缺失值、异常值和重复值的处理
  • ​云纳万物 · 数皆有言|2021 七牛云战略发布会启幕,邀您赴约
  • #### go map 底层结构 ####
  • #define,static,const,三种常量的区别
  • (poj1.2.1)1970(筛选法模拟)
  • (附程序)AD采集中的10种经典软件滤波程序优缺点分析
  • (介绍与使用)物联网NodeMCUESP8266(ESP-12F)连接新版onenet mqtt协议实现上传数据(温湿度)和下发指令(控制LED灯)
  • (蓝桥杯每日一题)平方末尾及补充(常用的字符串函数功能)
  • (学习日记)2024.03.25:UCOSIII第二十二节:系统启动流程详解
  • (转)es进行聚合操作时提示Fielddata is disabled on text fields by default
  • .aanva
  • .NET CORE 3.1 集成JWT鉴权和授权2
  • .net core IResultFilter 的 OnResultExecuted和OnResultExecuting的区别
  • .NET 中让 Task 支持带超时的异步等待
  • .Net中间语言BeforeFieldInit
  • // an array of int
  • [ vulhub漏洞复现篇 ] AppWeb认证绕过漏洞(CVE-2018-8715)
  • [2016.7.test1] T2 偷天换日 [codevs 1163 访问艺术馆(类似)]
  • [20181219]script使用小技巧.txt
  • [ARC066F]Contest with Drinks Hard
  • [CF407E]k-d-sequence
  • [Contest20180313]灵大会议
  • [CSS]CSS 字体属性
  • [Electron] 将应用打包成供Ubuntu、Debian平台下安装的deb包