当前位置: 首页 > news >正文

pytorch正向传播没问题,loss.backward()使定义的神经网络中权重参数变为nan

记录一个非常坑爹的bug:loss回传导致神经网络中一个linear层的权重参数变为nan
1.首先loss值是正常数值;
2.查了好多网上的解决办法:检查原始输入神经网络数据有没有nan值,初始化权重参数,使用relu激活函数,梯度裁剪,降低优化器的学习率等等都没解决,个人认为这些应该影响不大,一般不会出问题;
3.最后是使用如下异常检测:检测在loss回传过程中哪一块出现了问题
torch.autograd.set_detect_anomaly(True)
with torch.autograd.detect_anomaly():
loss.backward()
4.果真报了一个错:
RuntimeError: Function ‘ExpBackward’ returned nan values in its 0th output.
意思是Exp函数回传有问题,然后发现在生成loss过程中有一步:
tensor2 = torch.exp(tensor1),tensor1是我要处理的张量,tensor2用来做后续处理,这里tensor1中的值如果太小,容易使torch.exp的结果变为0。虽然exp函数的值域是大于0的,但是对于非常小的输入pytorch处理后会取0,所以做了如下处理:
torch.clamp(tensor2,1e-9),对tensor2中小于1e-9的数,直接取1e-9,避免0值出现
5.还有一个点是:计算loss时有一个torch.log(tensor3)的函数,同样的道理不能让tensor3的值中有0,否则loss会出现inf值,同样可以加一个很小的值比如1e-9
6.最后不确定的一点是pytorch的版本问题,出现问题的是torch1.0.1,更新到1.5.1之后不再报错(这也是在https://discuss.pytorch.org/找到的方法)。
7.这个问题找了好长时间,又是输出loss值,又是输出过程中的各种变量值还有神经网络权重参数,最后按照上面的措置一步一步才解决,最重要的是要保证每个函数的输入要正常,但是不确定是不是torch版本问题,反正手段都用上了。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • ELK学习笔记(一)——使用K8S部署ElasticSearch8.15.0集群
  • 目标检测-YOLOv4
  • 代码随想录算法训练营Day37|完全背包问题、518.零钱兑换II、377. 组合总和 Ⅳ、70. 爬楼梯(进阶版)
  • box64 安装
  • 微信小程序实践案例
  • IP/TCP/UDP协议的关键知识点
  • C++ | 单例设计模式(懒汉式单例模式源码|饿汉式单例模式)
  • EMC测试
  • Android 开发避坑经验第三篇:RecyclerView 高效使用与常见问题解决
  • 使用 `readResolve` 防止序列化破坏单例模式
  • 【python】python指南(三):使用正则表达式re提取文本中的http链接
  • 11. GIS三维建模工程师岗位职责、技术要求和常见面试题
  • 军事目标无人机视角检测数据集 3500张 坦克 带标注voc
  • 从“游戏科学”到玄机科技:《黑神话:悟空》的视角打开动漫宇宙
  • 最新车型库大全|阿里云实现调用API接口
  • $translatePartialLoader加载失败及解决方式
  • 【Leetcode】104. 二叉树的最大深度
  • AngularJS指令开发(1)——参数详解
  • DataBase in Android
  • ES6 ...操作符
  • Javascript弹出层-初探
  • PHP 程序员也能做的 Java 开发 30分钟使用 netty 轻松打造一个高性能 websocket 服务...
  • PHP面试之三:MySQL数据库
  • 互联网大裁员:Java程序员失工作,焉知不能进ali?
  • 类orAPI - 收藏集 - 掘金
  • 聊聊flink的BlobWriter
  • 免费小说阅读小程序
  • 爬虫进阶 -- 神级程序员:让你的爬虫就像人类的用户行为!
  • 前端技术周刊 2019-01-14:客户端存储
  • 嵌入式文件系统
  • 让你成为前端,后端或全栈开发程序员的进阶指南,一门学到老的技术
  • 深入体验bash on windows,在windows上搭建原生的linux开发环境,酷!
  • 微信小程序开发问题汇总
  • 一文看透浏览器架构
  • nb
  • ​探讨元宇宙和VR虚拟现实之间的区别​
  • ​学习一下,什么是预包装食品?​
  • (1)虚拟机的安装与使用,linux系统安装
  • (39)STM32——FLASH闪存
  • (Matalb时序预测)PSO-BP粒子群算法优化BP神经网络的多维时序回归预测
  • (阿里云在线播放)基于SpringBoot+Vue前后端分离的在线教育平台项目
  • (板子)A* astar算法,AcWing第k短路+八数码 带注释
  • (层次遍历)104. 二叉树的最大深度
  • (二)学习JVM —— 垃圾回收机制
  • (二十六)Java 数据结构
  • (附源码)ssm智慧社区管理系统 毕业设计 101635
  • (七)Knockout 创建自定义绑定
  • (七)MySQL是如何将LRU链表的使用性能优化到极致的?
  • (三)模仿学习-Action数据的模仿
  • (四)Controller接口控制器详解(三)
  • (原创)攻击方式学习之(4) - 拒绝服务(DOS/DDOS/DRDOS)
  • (转)VC++中ondraw在什么时候调用的
  • (最简单,详细,直接上手)uniapp/vue中英文多语言切换
  • .NET CLR基本术语
  • .Net Core 微服务之Consul(三)-KV存储分布式锁