当前位置：首页 > news >正文

15.2 Scikit-learn简介与常用模型

news 来源：原创 2024/9/20 10:50:32

欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：
工💗重💗hao💗：野老杂谈
⭐️ 全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.
⭐️ AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。
⭐️ 全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。
⭐️ 构建全面的数据指标体系：通过深入的理论解析、详细的实操步骤和丰富的案例分析，为读者提供系统化的指导，帮助他们构建和应用数据指标体系，提升数据驱动的决策水平。
⭐️《遇见Python：初识、了解与热恋》：涵盖了Python学习的基础知识、进阶技巧和实际应用案例，帮助读者从零开始逐步掌握Python的各个方面，并最终能够进行项目开发和解决实际问题。

摘要

Scikit-learn是Python中一个强大且易于使用的机器学习库，被广泛用于各种机器学习任务。本文将通过一个生动有趣的故事，带你认识Scikit-learn的基本概念与常用模型。通过简单易懂的代码示例和图表，你将学会如何使用Scikit-learn进行数据预处理、模型选择、训练和评估。无论你是机器学习的初学者还是经验丰富的开发者，希望这篇文章能让你在轻松愉快中掌握Scikit-learn的精髓。

标签：Scikit-learn Python编程机器学习数据科学模型选择

一、什么是Scikit-learn？

假设你是一个面点师傅，每天忙着烤各种蛋糕。你有各种各样的工具：面粉筛子、搅拌器、烤箱，还有你最喜欢的那把黄铜刮刀。但突然有一天，你被一个神秘的烤点大师邀请加入一场“蛋糕大赛”，要求你用机器来预测哪种蛋糕最受欢迎。你的第一反应是：“这得用点高科技手段吧？”

这个高科技手段就是Scikit-learn！它就像是你厨房里的“全能料理机”，可以帮你轻松完成各种复杂的机器学习任务。Scikit-learn是Python中的一个机器学习库，提供了丰富的工具来进行数据预处理、模型选择、训练和评估。无论你是刚开始接触机器学习，还是已经有了一定的基础，Scikit-learn都是一个非常适合的工具。

二、Scikit-learn的基本架构

Scikit-learn的架构简单且强大，主要分为以下几个部分：

数据集（Datasets）：Scikit-learn自带一些常用的小型数据集，方便你进行快速上手练习，比如经典的鸢尾花（Iris）数据集。
数据预处理（Preprocessing）：数据预处理是机器学习的关键一步。Scikit-learn提供了各种预处理工具，如标准化、归一化、缺失值填充等。
模型选择（Model Selection）：Scikit-learn有一整套的模型选择工具，可以帮助你找到最适合当前任务的模型。
模型训练（Training）：这是机器学习的核心步骤，Scikit-learn提供了大量的监督学习和非监督学习模型。
模型评估（Evaluation）：模型训练完成后，你需要评估它的表现，Scikit-learn提供了多种评估指标和方法。

三、通过一个故事理解Scikit-learn的常用模型

让我们通过一个故事来深入理解Scikit-learn中的常用模型。

故事背景：小明是一个蛋糕师傅，他收到了一个神秘邀请，要参加一场“蛋糕大赛”。比赛要求他通过机器学习预测哪种蛋糕会最受顾客欢迎。小明决定使用Scikit-learn来完成这个任务。

1. 数据收集与预处理

小明首先收集了过去一年的销售数据，包括蛋糕的种类、价格、节日销售量等。为了让数据能够被机器学习模型理解，他需要进行一些预处理：

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split# 假设X是特征矩阵，y是目标标签
# 1. 数据预处理：标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 2. 划分数据集：80%训练集，20%测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

在这里，小明使用了标准化（Standardization）来将数据调整到同一尺度，以避免某些特征对模型的影响过大。他还划分了训练集和测试集，以便后续评估模型的效果。

2. 选择合适的模型

小明面临的问题是一个经典的分类任务：预测顾客最喜欢哪种蛋糕。因此，他决定尝试几种常见的分类模型。

a) 决策树（Decision Tree）

决策树模型就像一棵智慧之树，根据不同的特征一步步作出选择，最终得出一个预测结果。

from sklearn.tree import DecisionTreeClassifier# 训练决策树模型
clf_tree = DecisionTreeClassifier(random_state=42)
clf_tree.fit(X_train, y_train)# 模型评估
accuracy_tree = clf_tree.score(X_test, y_test)
print(f"决策树模型的准确率：{accuracy_tree:.2f}")

b) 随机森林（Random Forest）

如果一棵决策树还不够聪明，那就用一整片森林吧！随机森林模型由多棵决策树组成，通过集成多个模型来提高预测的准确性。

from sklearn.ensemble import RandomForestClassifier# 训练随机森林模型
clf_forest = RandomForestClassifier(n_estimators=100, random_state=42)
clf_forest.fit(X_train, y_train)# 模型评估
accuracy_forest = clf_forest.score(X_test, y_test)
print(f"随机森林模型的准确率：{accuracy_forest:.2f}")

c) 支持向量机（SVM）

支持向量机是一种非常强大的分类工具，擅长处理复杂的决策边界。

from sklearn.svm import SVC# 训练SVM模型
clf_svm = SVC(kernel='linear', random_state=42)
clf_svm.fit(X_train, y_train)# 模型评估
accuracy_svm = clf_svm.score(X_test, y_test)
print(f"SVM模型的准确率：{accuracy_svm:.2f}")

d) K近邻算法（K-Nearest Neighbors, KNN）

K近邻算法简单而直观，通过“邻居”的投票来决定预测结果。

from sklearn.neighbors import KNeighborsClassifier# 训练KNN模型
clf_knn = KNeighborsClassifier(n_neighbors=5)
clf_knn.fit(X_train, y_train)# 模型评估
accuracy_knn = clf_knn.score(X_test, y_test)
print(f"KNN模型的准确率：{accuracy_knn:.2f}")