当前位置：首页 > news >正文

Pytorch梯度裁剪 nn.utils.clip_grad_norm_()

news 来源：原创 2024/5/3 6:33:57

梯度裁剪原理：既然在BP过程中会产生梯度消失（就是偏导无限接近0，导致长时记忆无法更新）或梯度爆炸，那么最简单粗暴的方法就是，梯度截断Clip, 将梯度约束在某一个区间之内

pytorch中的梯度裁剪函数是nn.utils.clip_grad_norm_()

parameters：希望实施梯度裁剪的可迭代网络参数
max_norm：该组网络参数梯度的范数上限
norm_type：范数类型(一般默认为L2 范数, 即范数类型=2)

torch.nn.utils.clipgrad_norm() 的使用应该在loss.backward() 之后，optimizer.step()之前.

注意这个方法只在训练的时候使用，在测试的时候验证和测试的时候不用。

相关文章：

Layer Normalization(LN) 层标准化

TF_CPP_MIN_LOG_LEVEL

Python sys.argv

pytorch模型可复现设置(cudnn.benchmark 加速卷积运算 cudnn.deterministic)

Python sys.stdout

Python vars()函数

Python类的self

Python输出numpy array带逗号和不带逗号

center loss 中心损失

torch与lua的关系

Python类super(super().__init__())

自回归模型(Autoregressive model)(auto)

Pytorch tensorboard与tensorboardX的区别

Pytorch中的BN和IN(affine仿射, track_running_stats)

Pytorch修改tensor值

【159天】尚学堂高琪Java300集视频精华笔记（128）

07.Android之多媒体问题

centos安装java运行环境jdk+tomcat

CoolViewPager:即刻刷新,自定义边缘效果颜色,双向自动循环,内置垂直切换效果,想要的都在这里...

express.js的介绍及使用

js ES6 求数组的交集，并集，还有差集

Node项目之评分系统（二）- 数据库设计

React 快速上手 - 07 前端路由 react-router

RedisSerializer之JdkSerializationRedisSerializer分析

spring cloud gateway 源码解析（4）跨域问题处理

sublime配置文件

阿里研究院入选中国企业智库系统影响力榜

百度贴吧爬虫node+vue baidu_tieba_crawler

多线程 start 和 run 方法到底有什么区别？

机器人定位导航技术激光SLAM与视觉SLAM谁更胜一筹？

数组的操作

系统认识JavaScript正则表达式

移动端高清、多屏适配方案

HTTP与HTTPS：网络通信的安全卫士

# centos7下FFmpeg环境部署记录

#Linux杂记--将Python3的源码编译为.so文件方法与Linux环境下的交叉编译方法

（1）SpringCloud 整合Python

（39）STM32——FLASH闪存

（C语言）球球大作战

（DFS + 剪枝）【洛谷P1731】 [NOI1999] 生日蛋糕

(done) ROC曲线和 AUC值分别是什么？

（HAL库版）freeRTOS移植STMF103

（补）B+树一些思想

（附源码）php新闻发布平台毕业设计 141646

（附源码）springboot社区居家养老互助服务管理平台毕业设计 062027

（一）u-boot-nand.bin的下载

（转）平衡树

（转）总结使用Unity 3D优化游戏运行性能的经验

（转载）（官方）UE4--图像编程----着色器开发

***监测系统的构建（chkrootkit ）

**登录+JWT+异常处理+拦截器+ThreadLocal-开发思想与代码实现**

.NET Core 通过 Ef Core 操作 Mysql

.NET 除了用 Task 之外，如何自己写一个可以 await 的对象？

.NET 反射的使用

.NET 分布式技术比较