当前位置: 首页 > news >正文

李沐深度学习 自制数据集

os.makedirs(os.path.join('.','data'),exist_ok= True)
data_file = os.path.join('.','data','house_tiny.csv')

'.'生成在当前目录中

完整代码

import torch
import os
import  pandas as pd
os.makedirs(os.path.join('.', 'data'), exist_ok=True)
data_file = os.path.join('.', 'data', '通信2402.csv')
with open(data_file, 'w',encoding='utf-8') as f:f.write('Name,性别,Salary,Level\n')  # 列名f.write('1,男,127500,1\n')  # 每行表示一个数据样本f.write('2,女,106000,2\n')f.write('3,男,178100,3\n')f.write('4,男,NA,NA\n')f.write('5,男,NA,NA\n')f.write('NA,NA,106000,NA\n')f.write('7,男,178100,NA\n')f.write('8,男,140000,2\n')
data = pd.read_csv(data_file)
print(data)
# 计算每一列的缺失值数量
missing_counts = data.isnull().sum()###计算每一列 缺失值的数量 是缺失值为True= 1# 找到缺失值最多的列的名称
column_to_drop = missing_counts.idxmax()  ##column_to_drop = level# 删除缺失值最多的列
data_cleaned = data.drop(columns=[column_to_drop]) ##丢弃掉level行
# 打印处理后的数据
print("\n删除缺失值最多的列后数据:")
print(data_cleaned)
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean(numeric_only = True))###将Name行进行平均填充
print(inputs)
inputs = pd.get_dummies(inputs, dummy_na=True,dtype=int)###独热编码
x,y = torch.tensor(inputs.values),torch.tensor(outputs.values)
print(x)
print(y)

data_file 为写入文件名称,'w'为写模式,encoing='utf-8'处理中文字符 

with open(data_file, 'w',encoding='utf-8') as f:

 计算每一列NAN个数并求和 赋值给变量

isnull() 

missing_counts = data.isnull().sum()###计算每一列 缺失值的数量 是缺失值为True= 1

idxmax

它通常用于查找数据集中最大值对应的行或列名。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • GenAI 客户支持 — 第 3 部分:为人类设计聊天机器人的聊天界面
  • 数据结构之红黑树的 “奥秘“
  • HarmonyOS学习(七)——UI(五)常用布局总结
  • 多目标应用:四种多目标优化算法(NSGA2、NSPSO、NSDBO、NSCOA)求解柔性作业车间调度问题(FJSP),MATLAB代码
  • ffmpeg7.0 AVFrame的分配与释放
  • 2024年企业级电脑监控软件推荐,精选的电脑监控软件
  • SprinBoot+Vue停车场管理系统的设计与实现
  • 第二十三章 rust类型转换:from与into
  • springboot+vue+mybatis计算机毕业设计医护系统的设计与实现+PPT+论文+讲解+售后
  • 【前端】jq复制文本到剪贴板
  • 25、Wpf之App资源应用
  • OCR技术视角:智能文档管理中的票据自动化识别与处理
  • 医疗机构关于DIP/DRG信息化建设
  • Android ADB抓取APP运行日志(adb logcat -v time)
  • 管理学习(一)马云《赢在中国》创业演讲整理
  • isset在php5.6-和php7.0+的一些差异
  • java8-模拟hadoop
  • JS字符串转数字方法总结
  • leetcode-27. Remove Element
  • miaov-React 最佳入门
  • Mysql5.6主从复制
  • Redis 中的布隆过滤器
  • 服务器从安装到部署全过程(二)
  • 基于webpack 的 vue 多页架构
  • 看完九篇字体系列的文章,你还觉得我是在说字体?
  • 前端工程化(Gulp、Webpack)-webpack
  • 前端知识点整理(待续)
  • 如何打造100亿SDK累计覆盖量的大数据系统
  • 深度学习入门:10门免费线上课程推荐
  • 使用docker-compose进行多节点部署
  • 推荐一个React的管理后台框架
  • 项目管理碎碎念系列之一:干系人管理
  • 自制字幕遮挡器
  • 仓管云——企业云erp功能有哪些?
  • 浅谈sql中的in与not in,exists与not exists的区别
  • 组复制官方翻译九、Group Replication Technical Details
  • ​LeetCode解法汇总2304. 网格中的最小路径代价
  • ​探讨元宇宙和VR虚拟现实之间的区别​
  • #多叉树深度遍历_结合深度学习的视频编码方法--帧内预测
  • #图像处理
  • (zhuan) 一些RL的文献(及笔记)
  • (三)终结任务
  • (转载)从 Java 代码到 Java 堆
  • .\OBJ\test1.axf: Error: L6230W: Ignoring --entry command. Cannot find argumen 'Reset_Handler'
  • .net core 管理用户机密
  • .Net Core 微服务之Consul(三)-KV存储分布式锁
  • .NET Standard 支持的 .NET Framework 和 .NET Core
  • .net 反编译_.net反编译的相关问题
  • .NET 服务 ServiceController
  • .net 开发怎么实现前后端分离_前后端分离:分离式开发和一体式发布
  • .NET/C# 使窗口永不获得焦点
  • .NET程序员迈向卓越的必由之路
  • .NET企业级应用架构设计系列之结尾篇
  • .net通用权限框架B/S (三)--MODEL层(2)
  • .net与java建立WebService再互相调用