当前位置: 首页 > news >正文

K-means聚类算法详解与实战

一、引言

K-means聚类算法是一种无监督学习算法,旨在将数据点划分为K个不同的聚类或群组,使得同一聚类内的数据点尽可能相似,而不同聚类间的数据点尽可能不同。在图像处理、数据挖掘、客户细分等领域有着广泛的应用。本文将通过图文结合的方式,详细介绍K-means聚类算法的原理、步骤,并通过Python代码展示其实现过程。

二、K-means算法原理

K-means算法基于迭代的思想,通过不断迭代优化聚类结果,最终将数据划分为K个聚类。算法的主要步骤如下:

  1. 初始化:随机选择K个数据点作为初始聚类中心(质心)。
  2. 分配数据点到最近的质心:对于每个数据点,计算其与所有质心的距离,并将其分配给距离最近的质心所对应的聚类。
  3. 更新质心:对于每个聚类,计算其内部所有数据点的均值,并将该均值设为新的质心。
  4. 迭代:重复步骤2和3,直到达到预设的迭代次数或聚类结果不再发生显著变化为止。

三、K-means算法实现

1. 数据准备

首先,我们需要准备一些数据来进行聚类。这里我们使用sklearn库中的make_blobs函数生成模拟数据。

from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt# 生成模拟数据
X, y = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)# 绘制原始数据分布
plt.scatter(X[:, 0], X[:, 1], s=50)
plt.show()

2. 使用sklearn的K-means进行聚类

接下来,我们使用sklearn库中的KMeans类来进行K-means聚类。

from sklearn.cluster import KMeans# 设置聚类数量为4
kmeans = KMeans(n_clusters=4)# 拟合数据
kmeans.fit(X)# 获取聚类结果和质心位置
labels = kmeans.labels_
centers = kmeans.cluster_centers_# 绘制聚类结果和质心位置
plt.scatter(X[:, 0], X[:, 1], c=labels, s=50, cmap='viridis')
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=200, alpha=0.5)
plt.show()

3. K-means算法性能评估

对于K-means聚类结果的评估,常用的指标有轮廓系数(Silhouette Coefficient)和Calinski-Harabasz Index等。这里我们使用轮廓系数来评估聚类效果。

from sklearn.metrics import silhouette_score# 计算轮廓系数
score = silhouette_score(X, labels)
print("Silhouette Coefficient: ", score)

四、总结

K-means聚类算法是一种简单而有效的无监督学习算法,适用于数据探索和初步的数据分析。通过调整聚类数量K和迭代次数等参数,我们可以得到不同的聚类结果。然而,K-means算法也有一些局限性,例如对初始质心的选择敏感、对噪声和异常值敏感等。在实际应用中,我们需要根据具体的数据特点和需求选择合适的聚类算法。

相关文章:

  • Spring中的ContextPath总结
  • Python应用开发——30天学习Streamlit Python包进行APP的构建(7)
  • Python实现逻辑回归与判别分析--西瓜数据集
  • BizDevOps全局建设思路:横向串联,纵向深化
  • Linux测试服务器端口是否打开
  • gitblit git pycharm 新建版本库及push备忘
  • 【linux】shell脚本中设置字体颜色,背景颜色详细攻略
  • HTTP/3 协议学习
  • 如何利用机器学习算法进行数据分析和挖掘,数据优化、预处理、特征提取等老板吩咐的工作
  • 自制HTML5游戏《开心消消乐》
  • Wireshark的基本用法以及注意事项
  • 速盾:高防服务器防御 DDoS 攻击的掩护技巧
  • 逆向学习网络篇:通过Socket建立连接并传输数据
  • 企业ERP系统规划图
  • 智慧公厕系统厂家的核心技术与光明源应用案例
  • CSS盒模型深入
  • Django 博客开发教程 16 - 统计文章阅读量
  • echarts花样作死的坑
  • java取消线程实例
  • mysql innodb 索引使用指南
  • Node.js 新计划:使用 V8 snapshot 将启动速度提升 8 倍
  • nodejs调试方法
  • PermissionScope Swift4 兼容问题
  • redis学习笔记(三):列表、集合、有序集合
  • scrapy学习之路4(itemloder的使用)
  • VirtualBox 安装过程中出现 Running VMs found 错误的解决过程
  • Webpack4 学习笔记 - 01:webpack的安装和简单配置
  • 从0到1:PostCSS 插件开发最佳实践
  • 从零开始学习部署
  • 利用jquery编写加法运算验证码
  • 聊聊flink的BlobWriter
  • 使用Swoole加速Laravel(正式环境中)
  • 与 ConTeXt MkIV 官方文档的接驳
  • gunicorn工作原理
  • 曾刷新两项世界纪录,腾讯优图人脸检测算法 DSFD 正式开源 ...
  • # MySQL server 层和存储引擎层是怎么交互数据的?
  • #pragam once 和 #ifndef 预编译头
  • #常见电池型号介绍 常见电池尺寸是多少【详解】
  • ()、[]、{}、(())、[[]]等各种括号的使用
  • (11)iptables-仅开放指定ip访问指定端口
  • (2)(2.4) TerraRanger Tower/Tower EVO(360度)
  • (2024最新)CentOS 7上在线安装MySQL 5.7|喂饭级教程
  • (done) ROC曲线 和 AUC值 分别是什么?
  • (不用互三)AI绘画工具应该如何选择
  • (三)Kafka离线安装 - ZooKeeper开机自启
  • (一)认识微服务
  • (转)Linux NTP配置详解 (Network Time Protocol)
  • (转)Linux整合apache和tomcat构建Web服务器
  • ***通过什么方式***网吧
  • .bat批处理(十一):替换字符串中包含百分号%的子串
  • .JPG图片,各种压缩率下的文件尺寸
  • .NET Standard、.NET Framework 、.NET Core三者的关系与区别?
  • .NET WPF 抖动动画
  • .Net 中的反射(动态创建类型实例) - Part.4(转自http://www.tracefact.net/CLR-and-Framework/Reflection-Part4.aspx)...
  • @vue/cli脚手架