当前位置：首页 > news >正文

基于Python的机器学习系列（25）：使用PyTorch处理数据集

news 来源：原创 2024/9/20 4:45:16

在使用PyTorch进行深度学习之前，数据处理是关键的一步。本篇将介绍如何使用PyTorch处理数据集，特别是如何加载和分割数据集。

从文件加载数据

首先，我们可以使用pandas库读取CSV文件，并将数据转换为PyTorch张量。以下是一个示例：

import pandas as pddf = pd.read_csv('data/iris.csv')
df.head()  # 显示数据的前几行

该示例加载了著名的Iris数据集，该数据集包含150个样本，每个样本有4个特征和一个标签。特征包括花萼长度、花萼宽度、花瓣长度和花瓣宽度，标签则是三个Iris物种的名称。

使用经典方法构建训练/测试数据

在介绍PyTorch的Dataset和DataLoader类之前，我们先看一下如何使用sklearn库进行训练和测试数据的分割：

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoderle = LabelEncoder()df = pd.read_csv('data/iris.csv')
X = df.drop(['Id', 'Species'], axis=1).values
y = le.fit_transform(df['Species'].values)
train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.2, random_state=33)X_train = torch.FloatTensor(train_X)
X_test  = torch.FloatTensor(test_X)
y_train = torch.LongTensor(train_y).reshape(-1, 1)
y_test  = torch.LongTensor(test_y).reshape(-1, 1)print(f'Training size: {len(y_train)}')
labels, counts = y_train.unique(return_counts=True)
print(f'Labels: {labels}\nCounts: {counts}')

在这个示例中，我们首先使用LabelEncoder对标签进行编码，然后使用train_test_split将数据分割为训练集和测试集。最后，将这些数据转换为PyTorch的张量，并检查训练数据的标签分布。

使用PyTorch的`Dataset`和`DataLoader`

为了更高效地处理数据，PyTorch提供了Dataset和DataLoader类，这些工具可以简化数据加载和批处理过程。在接下来的章节中，我们将深入探讨如何使用这些类来管理数据集。

总结

本篇介绍了如何从文件中加载数据，并使用经典方法进行数据分割。掌握这些基本步骤是使用PyTorch进行深度学习的前提。接下来，我们将进一步探讨PyTorch中的Gradients。

如果你觉得这篇博文对你有帮助，请点赞、收藏、关注我，并且可以打赏支持我！

欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持！

相关文章：

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

Unity版本升级2022 Gradle 升级7.x版本调整

JVM面试（五）垃圾回收机制和算法

opencv之阈值处理

7种常见排序

基于Spring的规则引擎EasyRule应用

jupyter 笔记本中如何判定bash块是否执行完毕

【人工智能】Transformers之Pipeline（十四）：问答（question-answering）

【linux002】目录操作命令篇 - ls 命令

BF算法Java

HarmonyOs

山寨币

虚拟化技术实现；容器和虚拟化；一种软件实现各类厂商多种型号算力资源池化和虚拟化的；

STL简介、什么是STL、STL的六大组件、STL缺陷等的介绍

(php伪随机数生成)[GWCTF 2019]枯燥的抽奖

20240831-PostgreSQL小课持续更新

[Vue CLI 3] 配置解析之 css.extract

4月23日世界读书日网络营销论坛推荐《正在爆发的营销革命》

Linux CTF 逆向入门

windows下mongoDB的环境配置

阿里云前端周刊 - 第 26 期

飞驰在Mesos的涡轮引擎上

记录：CentOS7.2配置LNMP环境记录

开放才能进步！Angular和Wijmo一起走过的日子

如何解决微信端直接跳WAP端

使用 5W1H 写出高可读的 Git Commit Message

我与Jetbrains的这些年

字符串匹配基础上

kubernetes资源对象--ingress

仓管云——企业云erp功能有哪些？

整理一些计算机基础知识！

LeetCode解法汇总1276. 不浪费原料的汉堡制作方案

草莓熊python turtle绘图代码（玫瑰花版）附源代码

# Spring Cloud Alibaba Nacos_配置中心与服务发现（四）

#Datawhale AI夏令营第4期#多模态大模型复盘

#前后端分离# 头条发布系统

(+3)1.3敏捷宣言与敏捷过程的特点

(2/2) 为了理解 UWP 的启动流程，我从零开始创建了一个 UWP 程序

(2020)Java后端开发----（面试题和笔试题）

(C++17) std算法之执行策略 execution

(delphi11最新学习资料) Object Pascal 学习笔记---第7章第3节（封装和窗体）

（Matalb时序预测）PSO-BP粒子群算法优化BP神经网络的多维时序回归预测

（Pytorch框架）神经网络输出维度调试，做出我们自己的网络来！！（详细教程~）

（二）WCF的Binding模型

(附源码)springboot课程在线考试系统毕业设计 655127

（函数）颠倒字符串顺序（C语言）

（十二）python网络爬虫（理论+实战）——实战：使用BeautfulSoup解析baidu热搜新闻数据

(未解决)jmeter报错之“请在微信客户端打开链接”

（译）计算距离、方位和更多经纬度之间的点

(原創) 博客園正式支援VHDL語法著色功能 (SOC) (VHDL)

./configure、make、make install 命令

.md即markdown文件的基本常用编写语法

.Net Core和.Net Standard直观理解

.NET/C# 避免调试器不小心提前计算本应延迟计算的值

.NET/C# 编译期能确定的字符串会在字符串暂存池中不会被 GC 垃圾回收掉

.vimrc 配置项