当前位置: 首页 > news >正文

inplace=True (原地操作)

Pytorch的很多地方有inplace这个参数,最近遇到的是nn.ReLU(inplace=True)。还有torch.sigmoid_等

inplace默认是False

inplace的含义是是否进行覆盖运算。即改变一个tensor的值的时候,不经过复制操作,而是直接在原来的内存上改变它的值

比如:

x = x +1

即对原值进行操作,然后将得到的值又直接复制到该值中

而不是覆盖运算的例子如:

y = x + 1
x = y

这样就需要花费内存去多存储一个变量y

所以

nn.Conv2d(3, 64, kernel_size=11, stride=4, padding=2),
nn.ReLU(inplace=True)

的意思就是对从上层网络Conv2d中传递下来的tensor直接进行修改,这样能够节省运算内存,不用多存储其他变量


注: 产生的计算结果不会有影响。利用inplace计算可以节省内(显)存,同时还可以省去反复申请和释放内存的时间。但是会对原变量覆盖,只要不带来错误就用。


inplace操作

其实inplace操作的概念会更宽泛,很多在原变量上修改的函数如detach_(), require_grad_()都属于inplace操作

inplace=True需要注意的问题

      Pytorch对于inplace操作本身会有一个正确性检查。如果pytorch检测到variable在一个Function中已经被保存用来backward,但是之后它又被in-place operations修改。当这种情况发生时,在backward的时候,pytorch就会报错。这种机制保证了,如果你用了in-place operations,但是在backward过程中没有报错,那么梯度的计算就是正确的。

      所以如果没报错,就可以放心使用

pytorch .detach() .detach_() 和 .data用于切断反向传播 - 慢行厚积 - 博客园

       现在在网上可以看到两种说法,一是inplace=True可以节约显存,应该使用;二是inpalce=True可能会影响训练的时候的梯度传递最好不要用。那到底是怎样的呢?

      inplace操作更加节省内存,但是如果该内存可能被其他变量引用,可能导致计算一致性的问题,存在后效性。考虑到Pytorch中的F.relu函数或者nn.ReLU(inplace=True)层,在使用原地操作前,我们要确定其是贯序(Sequential)结构,而不会存在被其他变量引用的情况

错误使用的例子

例如我们想实现这样一个pipeline

import torch
import torch.nn as nn

my_conv1 = nn.Conv2d(in_channels=2, out_channels=2, kernel_size=3, stride=1, padding=1)
my_relu = nn.ReLU(inplace=True)
my_conv2 = nn.Conv2d(in_channels=2, out_channels=2, kernel_size=3, stride=1, padding=1)

x = torch.rand(1,2,3,4)
x1 = my_conv1(x)
h = my_relu(x1)
y = my_conv2(x1)

这样做就是有问题的。因为在x1在经过my_relu之后,其值经过改变,现在其值相当于h

所以 y = my_conv2(x1)在这里,其实相当于y=my_conv2(h)

这样得到的结果就不是我们预期的了。这种情况在多分支(Multi-branch)的网络中很常出现。

相关文章:

  • 服务器内存泄漏
  • linux快速目录切换(cd - ,dirs, pushd, popd)
  • Python同时输出到屏幕和文件(Logger)
  • 图像通道转换——tensor从[h, w, c]转为[c, h, w] (permutetranspose和view的区别)(reshape和view)
  • linux服务器精确kill掉占用某几张卡的显存的程序
  • onnx 跨框架的模型中间表达框架(onnx.js)
  • Linux下删除文件后变成.nfsxxxxxx
  • linux lsof命令(查看哪个进程在占用文件)
  • TensorRT(GIE)
  • tensor与PIL.Image转换
  • numpy array与PIL.Image的转换
  • PyTorch Lightning (pl)
  • torch.jit (Python JIT) (Just-In-Time 即时编译器) (动态图转为静态图)
  • TorchScript (将动态图转为静态图)(模型部署)(jit)(torch.jit.trace)
  • linux grub菜单
  • 4月23日世界读书日 网络营销论坛推荐《正在爆发的营销革命》
  • create-react-app做的留言板
  • go append函数以及写入
  • Go 语言编译器的 //go: 详解
  • Redis学习笔记 - pipline(流水线、管道)
  • Spring Security中异常上抛机制及对于转型处理的一些感悟
  • VuePress 静态网站生成
  • vuex 学习笔记 01
  • Web Storage相关
  • zookeeper系列(七)实战分布式命名服务
  • 等保2.0 | 几维安全发布等保检测、等保加固专版 加速企业等保合规
  • 浮现式设计
  • 给Prometheus造假数据的方法
  • 免费小说阅读小程序
  • 由插件封装引出的一丢丢思考
  • ​Python 3 新特性:类型注解
  • ​一些不规范的GTID使用场景
  • # Swust 12th acm 邀请赛# [ A ] A+B problem [题解]
  • #if #elif #endif
  • #鸿蒙生态创新中心#揭幕仪式在深圳湾科技生态园举行
  • #微信小程序:微信小程序常见的配置传值
  • %check_box% in rails :coditions={:has_many , :through}
  • (二)Linux——Linux常用指令
  • (附源码)php投票系统 毕业设计 121500
  • (附源码)ssm旅游企业财务管理系统 毕业设计 102100
  • (转)Oracle 9i 数据库设计指引全集(1)
  • .net 怎么循环得到数组里的值_关于js数组
  • .net 逐行读取大文本文件_如何使用 Java 灵活读取 Excel 内容 ?
  • .Net(C#)常用转换byte转uint32、byte转float等
  • .NET/C# 中设置当发生某个特定异常时进入断点(不借助 Visual Studio 的纯代码实现)
  • .NET高级面试指南专题十一【 设计模式介绍,为什么要用设计模式】
  • .sdf和.msp文件读取
  • @Responsebody与@RequestBody
  • []常用AT命令解释()
  • [android] 天气app布局练习
  • [C++]C++类基本语法
  • [CTSC2014]企鹅QQ
  • [J2ME]如何替换Google Map静态地图自带的Marker
  • [LeetCode]-Pascal's Triangle III 杨辉三角问题
  • [Linux] Boot分区满了的处理方法 The volume boot has only 0 bytes disk space remaining