当前位置: 首页 > news >正文

深度模型训练时CPU或GPU的使用model.to(device)

一、使用device控制使用CPU还是GPU

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") 
# 单GPU或者CPU.先判断机器上是否存在GPU,没有则使用CPU训练
model = model.to(device)
data = data.to(device)#或者在确定有GPU的情况下,直接使用
model = model.cuda()
data = data.cuda()#在确定没有GPU的情况下,直接使用
model = model.cpu()
data = data.cpu()

注意:

1.tensor和numpy都是矩阵,前者能在GPU上运行,后者只能在CPU运行,所以要注意数据类型的转换。

2.当你使用model.to(device)时,它会将模型的参数和缓冲区移动到指定的设备上。而当你使用model = model.to(device)时,它会将整个模型移动到指定的设备上。

二、.to(device)和.cuda()设置GPU的区别

建议使用model.to(device)的方式,这样可以显示指定需要使用的计算资源,特别是有多个GPU的情况下,可以并行处理,加快速度。

参考.to(device)和.cuda()设置GPU的区别_.cuda()和to(device)-CSDN博客

.to(device) 可以指定CPU 或者GPU

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") 
# 单GPU或者CPU
model.to(device)
#如果是多GPU
if torch.cuda.device_count() > 1:model = nn.DataParallel(model,device_ids=[0,1,2])
model.to(device)

.cuda() 只能指定GPU

#指定某个GPU
os.environ['CUDA_VISIBLE_DEVICES']="1"
model.cuda()
#如果是多GPU
os.environ['CUDA_VISIBLE_DEVICES'] = "0,1,2,3"
device_ids = [0,1,2,3]
net  = torch.nn.Dataparallel(net, device_ids =device_ids)
net  = torch.nn.Dataparallel(net) # 默认使用所有的device_ids 
net = net.cuda()model.cuda()
#如果是多GPU
os.environment['CUDA_VISIBLE_DEVICES'] = '0,1,2,3'
device_ids = [0,1,2,3]
net  = torch.nn.Dataparallel(net, device_ids =device_ids)
net  = torch.nn.Dataparallel(net) # 默认使用所有的device_ids 
net = net.cuda()

三、指定使用的GPU

使用方式

import os# 给服务器上的GPU编号
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = '0,1,2,3'# 指定要使用哪张卡
device_ids = [0, 1] #假设只用两张卡# 将模型搬到GPU上,并行化处理
model = torch.nn.DataParallel(model, device_ids=device_ids)
model = model.cuda()
# 或者直接
model = torch.nn.DataParallel(model, device_ids=device_ids).cuda()

四、GPU利用率很低的可能原因分析

训练中GPU利用率很低4%,CPU利用率很高80%左右,原因分析:

(1)CPU性能不足,没有ssd加速;

(2)电脑只有一张显卡,无法并行训练model;——转移到服务器上多卡一起并行训练

(3)模型太复杂,要训练的参数多;——优化模型

(4)且Dataloader读入数据的时候numworks=0,单线程读入比较慢;——numworks=4,适当增大,观察GPU的提升,但CPU跑满就没法再继续增加了

(5)程序中每次迭代训练都采用日志保存所有的训练结果,频繁I/O读取;——先不记录,调好参数之后再训练时记录;

小结:主要考虑优化数据读取(I/O速度);数据传输;数据GPU上预处理;优化算法;调整硬件资源;

在不改变硬件条件的情况下,最能够努力的就是增加数据读取的进程,以及尽量把数据预处理操作能移到GPU上进行的就都移到GPU上

GPU利用率低解决方案

跑深度学习模型的时候我的gpu利用率很低_mob64ca12d2a342的技术博客_51CTO博客

相关文章:

  • SpringBoot3-实现和注册拦截器
  • Nginx网站服务详解(设置并发数、实现不同虚拟主机等)
  • 初始数据结构(加深对旋转的理解)
  • 深度学习猫狗分类 - python opencv cnn 计算机竞赛
  • SELinux refpolicy详解(13)
  • HDFS Java API 基本操作实验
  • 解决方案:Mac 安装 pip
  • 用23种设计模式打造一个cocos creator的游戏框架----(十)迭代器模式
  • Qt/C++音视频开发57-切换音视频轨道/切换节目流/分别切换音频视频轨道
  • java 有一个N位数字,各位加起来不超过M。
  • 【银行测试】金融项目+测试方法范围分析,功能/接口/性能/安全...
  • 【Vue3从入门到项目实现】RuoYi-Vue3若依框架前端学习——登录页面
  • 【ArcGIS Pro微课1000例】0051:创建数据最小几何边界范围(点、线、面数据均可)
  • 【Vue+Python】—— 基于Vue与Python的图书管理系统
  • 第一课【习题】HarmonyOS应用/元服务上架
  • Apache Pulsar 2.1 重磅发布
  • Java 23种设计模式 之单例模式 7种实现方式
  • Redux 中间件分析
  • SAP云平台里Global Account和Sub Account的关系
  • 安卓应用性能调试和优化经验分享
  • 搞机器学习要哪些技能
  • 简单数学运算程序(不定期更新)
  • 精彩代码 vue.js
  • 如何使用 JavaScript 解析 URL
  • 如何正确配置 Ubuntu 14.04 服务器?
  • 我这样减少了26.5M Java内存!
  • 新书推荐|Windows黑客编程技术详解
  • 用mpvue开发微信小程序
  • 你对linux中grep命令知道多少?
  • 2017年360最后一道编程题
  • Unity3D - 异步加载游戏场景与异步加载游戏资源进度条 ...
  • #调用传感器数据_Flink使用函数之监控传感器温度上升提醒
  • #微信小程序(布局、渲染层基础知识)
  • (2009.11版)《网络管理员考试 考前冲刺预测卷及考点解析》复习重点
  • (超简单)构建高可用网络应用:使用Nginx进行负载均衡与健康检查
  • (二)正点原子I.MX6ULL u-boot移植
  • (附源码)计算机毕业设计ssm基于B_S的汽车售后服务管理系统
  • (十五)devops持续集成开发——jenkins流水线构建策略配置及触发器的使用
  • (数据结构)顺序表的定义
  • (一)UDP基本编程步骤
  • (转)一些感悟
  • .Family_物联网
  • .NET CF命令行调试器MDbg入门(一)
  • .NET Reactor简单使用教程
  • .NET Standard 支持的 .NET Framework 和 .NET Core
  • .net 调用php,php 调用.net com组件 --
  • .NET 中各种混淆(Obfuscation)的含义、原理、实际效果和不同级别的差异(使用 SmartAssembly)
  • .NetCore Flurl.Http 升级到4.0后 https 无法建立SSL连接
  • @RestController注解的使用
  • [ element-ui:table ] 设置table中某些行数据禁止被选中,通过selectable 定义方法解决
  • [ vulhub漏洞复现篇 ] JBOSS AS 4.x以下反序列化远程代码执行漏洞CVE-2017-7504
  • [ 数据结构 - C++]红黑树RBTree
  • [AIGC] 如何建立和优化你的工作流?
  • [Angular] 笔记 21:@ViewChild
  • [bug总结]: Feign调用GET请求找不到请求体实体类