当前位置: 首页 > news >正文

基于Python的机器学习系列(25):使用PyTorch处理数据集

        在使用PyTorch进行深度学习之前,数据处理是关键的一步。本篇将介绍如何使用PyTorch处理数据集,特别是如何加载和分割数据集。

从文件加载数据

        首先,我们可以使用pandas库读取CSV文件,并将数据转换为PyTorch张量。以下是一个示例:

import pandas as pddf = pd.read_csv('data/iris.csv')
df.head()  # 显示数据的前几行

        该示例加载了著名的Iris数据集,该数据集包含150个样本,每个样本有4个特征和一个标签。特征包括花萼长度、花萼宽度、花瓣长度和花瓣宽度,标签则是三个Iris物种的名称。

使用经典方法构建训练/测试数据

        在介绍PyTorch的DatasetDataLoader类之前,我们先看一下如何使用sklearn库进行训练和测试数据的分割:

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoderle = LabelEncoder()df = pd.read_csv('data/iris.csv')
X = df.drop(['Id', 'Species'], axis=1).values
y = le.fit_transform(df['Species'].values)
train_X, test_X, train_y, test_y = train_test_split(X, y, test_size=0.2, random_state=33)X_train = torch.FloatTensor(train_X)
X_test  = torch.FloatTensor(test_X)
y_train = torch.LongTensor(train_y).reshape(-1, 1)
y_test  = torch.LongTensor(test_y).reshape(-1, 1)print(f'Training size: {len(y_train)}')
labels, counts = y_train.unique(return_counts=True)
print(f'Labels: {labels}\nCounts: {counts}')

        在这个示例中,我们首先使用LabelEncoder对标签进行编码,然后使用train_test_split将数据分割为训练集和测试集。最后,将这些数据转换为PyTorch的张量,并检查训练数据的标签分布。

使用PyTorch的DatasetDataLoader

        为了更高效地处理数据,PyTorch提供了DatasetDataLoader类,这些工具可以简化数据加载和批处理过程。在接下来的章节中,我们将深入探讨如何使用这些类来管理数据集。

总结

        本篇介绍了如何从文件中加载数据,并使用经典方法进行数据分割。掌握这些基本步骤是使用PyTorch进行深度学习的前提。接下来,我们将进一步探讨PyTorch中的Gradients。

如果你觉得这篇博文对你有帮助,请点赞、收藏、关注我,并且可以打赏支持我!

欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持!

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Unity版本升级2022 Gradle 升级7.x版本调整
  • JVM面试(五)垃圾回收机制和算法
  • opencv之阈值处理
  • 7种常见排序
  • 基于Spring的规则引擎EasyRule应用
  • jupyter 笔记本中如何判定bash块是否执行完毕
  • 【人工智能】Transformers之Pipeline(十四):问答(question-answering)
  • 【linux002】目录操作命令篇 - ls 命令
  • BF算法Java
  • HarmonyOs
  • 山 寨 币
  • 虚拟化技术实现;容器和虚拟化;一种软件实现各类厂商多种型号算力资源池化和虚拟化的;
  • STL简介、什么是STL、STL的六大组件、STL缺陷等的介绍
  • (php伪随机数生成)[GWCTF 2019]枯燥的抽奖
  • 20240831-PostgreSQL小课持续更新
  • [Vue CLI 3] 配置解析之 css.extract
  • 4月23日世界读书日 网络营销论坛推荐《正在爆发的营销革命》
  • Linux CTF 逆向入门
  • windows下mongoDB的环境配置
  • 阿里云前端周刊 - 第 26 期
  • 飞驰在Mesos的涡轮引擎上
  • 记录:CentOS7.2配置LNMP环境记录
  • 开放才能进步!Angular和Wijmo一起走过的日子
  • 如何解决微信端直接跳WAP端
  • 使用 5W1H 写出高可读的 Git Commit Message
  • 我与Jetbrains的这些年
  • 字符串匹配基础上
  • kubernetes资源对象--ingress
  • 仓管云——企业云erp功能有哪些?
  • 整理一些计算机基础知识!
  • ​LeetCode解法汇总1276. 不浪费原料的汉堡制作方案
  • ​草莓熊python turtle绘图代码(玫瑰花版)附源代码
  • # Spring Cloud Alibaba Nacos_配置中心与服务发现(四)
  • #Datawhale AI夏令营第4期#多模态大模型复盘
  • #前后端分离# 头条发布系统
  • (+3)1.3敏捷宣言与敏捷过程的特点
  • (2/2) 为了理解 UWP 的启动流程,我从零开始创建了一个 UWP 程序
  • (2020)Java后端开发----(面试题和笔试题)
  • (C++17) std算法之执行策略 execution
  • (delphi11最新学习资料) Object Pascal 学习笔记---第7章第3节(封装和窗体)
  • (Matalb时序预测)PSO-BP粒子群算法优化BP神经网络的多维时序回归预测
  • (Pytorch框架)神经网络输出维度调试,做出我们自己的网络来!!(详细教程~)
  • (二)WCF的Binding模型
  • (附源码)springboot课程在线考试系统 毕业设计 655127
  • (函数)颠倒字符串顺序(C语言)
  • (十二)python网络爬虫(理论+实战)——实战:使用BeautfulSoup解析baidu热搜新闻数据
  • (未解决)jmeter报错之“请在微信客户端打开链接”
  • (译)计算距离、方位和更多经纬度之间的点
  • (原創) 博客園正式支援VHDL語法著色功能 (SOC) (VHDL)
  • ./configure、make、make install 命令
  • .md即markdown文件的基本常用编写语法
  • .Net Core和.Net Standard直观理解
  • .NET/C# 避免调试器不小心提前计算本应延迟计算的值
  • .NET/C# 编译期能确定的字符串会在字符串暂存池中不会被 GC 垃圾回收掉
  • .vimrc 配置项