当前位置: 首页 > news >正文

基于Python的鸢尾花聚类与分类

1 导入必要的库

from sklearn.datasets import load_iris
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, silhouette_samples
from sklearn.metrics import confusion_matrix, classification_report
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree

2 加载数据


# 加载数据
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = iris.target

3 数据探索

sns.pairplot(df, hue='target')
plt.show()

图3-1

4 聚类分析


# 设定聚类数为3
kmeans = KMeans(n_clusters=3, random_state=0).fit(df.drop('target', axis=1))
df['cluster'] = kmeans.labels_
# 可视化聚类结果
plt.scatter(df['sepal length (cm)'], df['sepal width (cm)'], c=df['cluster'], cmap='viridis')
plt.xlabel('Sepal Length')
plt.ylabel('Sepal Width')
plt.title('K-Means Clustering of Iris Dataset')
plt.show()

图4-1 聚类结果


# 计算轮廓系数
score = silhouette_score(df.drop('target', axis=1), kmeans.labels_)
print(f"Silhouette Coefficient: {score}")# 计算每个样本的轮廓系数
sample_silhouette_values = silhouette_samples(df.drop('target', axis=1), kmeans.labels_)# 可视化轮廓图
plt.figure(figsize=(10, 5))
y_lower = 10
for i in range(3):# Aggregate the silhouette scores for samples belonging to# cluster i, and sort themith_cluster_silhouette_values = sample_silhouette_values[kmeans.labels_ == i]ith_cluster_silhouette_values.sort()size_cluster_i = ith_cluster_silhouette_values.shape[0]y_upper = y_lower + size_cluster_icolor = plt.cm.nipy_spectral(float(i) / 3)plt.fill_betweenx(np.arange(y_lower, y_upper),0, ith_cluster_silhouette_values,facecolor=color, alpha=0.7)# Label the silhouette plots with their cluster numbers at the middleplt.text(-0.05, y_lower + 0.5 * size_cluster_i, str(i),color=color, fontweight='bold', verticalalignment='center')y_lower = y_upper + 10  # 10 for the 0 samplesplt.xlabel('Silhouette Coefficient')
plt.ylabel('Cluster Label')
plt.title('Silhouette Plot')
plt.show()

图4-2 轮廓图

5 决策树分类


# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df.drop('target', axis=1), df['target'], test_size=0.3, random_state=42)# 初始化决策树分类器
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)# 预测测试集
y_pred = clf.predict(X_test)
# 显示混淆矩阵
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Confusion Matrix')
plt.show()# 显示分类报告
print(classification_report(y_test, y_pred))
# 可视化决策树
from sklearn.tree import plot_tree
import matplotlib.pyplot as pltplt.figure(figsize=(20,10))
plot_tree(clf, filled=True, feature_names=iris.feature_names, class_names=list(iris.target_names), rounded=True, fontsize=9)
plt.show()

图5-1 混淆矩阵

图5-2 决策树模型结构

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • VS+opencv+环境配置
  • QEMU虚拟机(TODO)
  • 【Spring】——代理模式、AOP、MyBatis-Spring学习以及Spring事务
  • WPF中的数据模板和样式:实现一致性和可维护性
  • openmetadata安装
  • 赞!蚓链用数字化打造助农扶农电商平台!
  • 【多线程】线程池
  • 详解Qt 之 QColor、QColorSpace与QColorTransform
  • JSONP跨域
  • IDEA优化配置,提高启动和运行速度
  • 什么牌子的洗地机好用?推荐多款质量好洗地机的品牌
  • 说下Linux特点,与windows的区别
  • 【C++标准库】模拟实现string类
  • 【Python】pandas:排序、重复值、缺省值处理、合并、分组
  • 【numpy】浮点数比较大小
  • 【编码】-360实习笔试编程题(二)-2016.03.29
  • 【腾讯Bugly干货分享】从0到1打造直播 App
  • 【知识碎片】第三方登录弹窗效果
  • Apache Zeppelin在Apache Trafodion上的可视化
  • electron原来这么简单----打包你的react、VUE桌面应用程序
  • Flex布局到底解决了什么问题
  • laravel5.5 视图共享数据
  • maya建模与骨骼动画快速实现人工鱼
  • open-falcon 开发笔记(一):从零开始搭建虚拟服务器和监测环境
  • OpenStack安装流程(juno版)- 添加网络服务(neutron)- controller节点
  • SAP云平台里Global Account和Sub Account的关系
  • Spring核心 Bean的高级装配
  • 不发不行!Netty集成文字图片聊天室外加TCP/IP软硬件通信
  • 双管齐下,VMware的容器新战略
  • 算法-图和图算法
  • 怎么将电脑中的声音录制成WAV格式
  • MiKTeX could not find the script engine ‘perl.exe‘ which is required to execute ‘latexmk‘.
  • FaaS 的简单实践
  • ​zookeeper集群配置与启动
  • ​软考-高级-系统架构设计师教程(清华第2版)【第1章-绪论-思维导图】​
  • # Python csv、xlsx、json、二进制(MP3) 文件读写基本使用
  • # windows 运行框输入mrt提示错误:Windows 找不到文件‘mrt‘。请确定文件名是否正确后,再试一次
  • ###C语言程序设计-----C语言学习(3)#
  • #vue3 实现前端下载excel文件模板功能
  • #经典论文 异质山坡的物理模型 2 有效导水率
  • ${ }的特别功能
  • (16)Reactor的测试——响应式Spring的道法术器
  • (1综述)从零开始的嵌入式图像图像处理(PI+QT+OpenCV)实战演练
  • (4)(4.6) Triducer
  • (c语言)strcpy函数用法
  • (Java入门)学生管理系统
  • (JSP)EL——优化登录界面,获取对象,获取数据
  • (Matlab)遗传算法优化的BP神经网络实现回归预测
  • (Redis使用系列) Springboot 在redis中使用BloomFilter布隆过滤器机制 六
  • (Spark3.2.0)Spark SQL 初探: 使用大数据分析2000万KF数据
  • (备份) esp32 GPIO
  • (附源码)spring boot基于小程序酒店疫情系统 毕业设计 091931
  • (力扣记录)1448. 统计二叉树中好节点的数目
  • (三)c52学习之旅-点亮LED灯
  • (三)Kafka 监控之 Streams 监控(Streams Monitoring)和其他