当前位置: 首页 > news >正文

pytorch对不同的可调参数,分配不同的学习率

在 PyTorch 中,你可以通过为优化器传递不同的学习率来针对不同的可调参数分配不同的学习率。这通常通过向优化器传递一个字典列表来实现,其中每个字典指定特定参数组的学习率。下面是一个示例代码,展示了如何实现这一点:

import torch
import torch.optim as optim# 假设我们有两个模型参数:param1 和 param2
param1 = torch.nn.Parameter(torch.randn(2, 3))
param2 = torch.nn.Parameter(torch.randn(3, 4))# 将这些参数分配给不同的学习率
optimizer = optim.SGD([{'params': param1, 'lr': 0.01},{'params': param2, 'lr': 0.001}
], lr=0.01, momentum=0.9)# 模拟一次训练步骤
loss = (param1.sum() + param2.sum()) ** 2
loss.backward()
optimizer.step()# 打印更新后的参数值
print(param1)
print(param2)

对于余弦退火算法中,对于可调的学习率,pytorch对不同的可调参数,分配不同的学习率权重

import torch
import torch.optim as optim
from torch.optim.lr_scheduler import CosineAnnealingLR# 假设我们有两个模型参数:param1 和 param2
param1 = torch.nn.Parameter(torch.randn(2, 3))
param2 = torch.nn.Parameter(torch.randn(3, 4))# 为每个参数组分配不同的学习率
optimizer = optim.SGD([{'params': param1, 'lr': 0.01},{'params': param2, 'lr': 0.001}
], lr=0.01, momentum=0.9)# 为整个优化器设置余弦退火调度器
scheduler = CosineAnnealingLR(optimizer, T_max=10, eta_min=0.0001)# 模拟一个训练周期
for epoch in range(10):# 执行优化步骤loss = (param1.sum() + param2.sum()) ** 2loss.backward()optimizer.step()# 更新学习率scheduler.step()# 打印当前学习率for i, param_group in enumerate(optimizer.param_groups):print(f'Epoch {epoch+1}, Param Group {i+1}: Learning Rate = {param_group["lr"]}')

两个参数先后优化,第一阶段主要优化param1,后一阶段主要优化param2

方法1:分阶段调整优化器的参数组
你可以在第一阶段只优化 param1,然后在第二阶段只优化 param2。这可以通过在不同阶段将 param1 或 param2 从优化器中移除或冻结(将学习率设置为 0)来实现。

import torch
import torch.optim as optim
from torch.optim.lr_scheduler import CosineAnnealingLR# 假设我们有两个模型参数:param1 和 param2
param1 = torch.nn.Parameter(torch.randn(2, 3))
param2 = torch.nn.Parameter(torch.randn(3, 4))# 第一阶段:仅优化 param1
optimizer1 = optim.SGD([{'params': param1, 'lr': 0.01}], momentum=0.9)
scheduler1 = CosineAnnealingLR(optimizer1, T_max=5, eta_min=0.0001)# 第二阶段:仅优化 param2
optimizer2 = optim.SGD([{'params': param2, 'lr': 0.001}], momentum=0.9)
scheduler2 = CosineAnnealingLR(optimizer2, T_max=5, eta_min=0.0001)# 模拟训练
for epoch in range(10):# 第一阶段:前5个epoch优化param1if epoch < 5:optimizer1.zero_grad()loss = (param1.sum()) ** 2loss.backward()optimizer1.step()scheduler1.step()print(f'Epoch {epoch+1}: Optimizing param1, LR = {scheduler1.get_last_lr()}')# 第二阶段:后5个epoch优化param2else:optimizer2.zero_grad()loss = (param2.sum()) ** 2loss.backward()optimizer2.step()scheduler2.step()print(f'Epoch {epoch+1}: Optimizing param2, LR = {scheduler2.get_last_lr()}')

方法2:同时设置不同的学习率,但不同阶段侧重不同的参数
在这个方法中,你可以在第一阶段为 param1 设置较大的学习率,param2 设置为非常小的学习率(几乎不变)。然后在第二阶段反过来。

import torch
import torch.optim as optim
from torch.optim.lr_scheduler import CosineAnnealingLR# 假设我们有两个模型参数:param1 和 param2
param1 = torch.nn.Parameter(torch.randn(2, 3))
param2 = torch.nn.Parameter(torch.randn(3, 4))# 同时优化param1和param2,但不同阶段有不同的学习率
optimizer = optim.SGD([{'params': param1, 'lr': 0.01},  # param1初始学习率较大{'params': param2, 'lr': 0.0001}  # param2初始学习率较小
], momentum=0.9)scheduler = CosineAnnealingLR(optimizer, T_max=10, eta_min=0.00001)# 模拟训练
for epoch in range(10):optimizer.zero_grad()# 计算损失loss = (param1.sum() + param2.sum()) ** 2loss.backward()optimizer.step()scheduler.step()# 不同阶段调整学习率if epoch == 5:optimizer.param_groups[0]['lr'] = 0.0001  # param1 学习率降低optimizer.param_groups[1]['lr'] = 0.01    # param2 学习率增大# 打印学习率print(f'Epoch {epoch+1}: LR for param1 = {optimizer.param_groups[0]["lr"]}, LR for param2 = {optimizer.param_groups[1]["lr"]}')

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • xxl-job
  • [C++]spdlog学习
  • P5735 【深基7.例1】距离函数
  • 【可测试性实践】C++ 单元测试代码覆盖率统计入门
  • 用go语言实现树和哈希表算法
  • (一)模式识别——基于SVM的道路分割实验(附资源)
  • Qt什么时候触发paintEvent事件
  • Selenium 实现图片验证码识别
  • 封装智能指针 qt实现登录界面
  • 衡石分析平台使用手册-部署前准备
  • 如何快速撰写毕业论文任务书
  • 遍历有向网络链路实现
  • 初学者如何掌握python
  • nlohmann::json中有中文时调用dump转string抛出异常的问题
  • 瑞吉外卖—读写分离
  • 【Leetcode】101. 对称二叉树
  • 【MySQL经典案例分析】 Waiting for table metadata lock
  • 2018一半小结一波
  • AHK 中 = 和 == 等比较运算符的用法
  • Linux gpio口使用方法
  • MobX
  • seaborn 安装成功 + ImportError: DLL load failed: 找不到指定的模块 问题解决
  • SegmentFault 技术周刊 Vol.27 - Git 学习宝典:程序员走江湖必备
  • ⭐ Unity 开发bug —— 打包后shader失效或者bug (我这里用Shader做两张图片的合并发现了问题)
  • vue-router 实现分析
  • 爱情 北京女病人
  • 不上全站https的网站你们就等着被恶心死吧
  • 从地狱到天堂,Node 回调向 async/await 转变
  • 多线程事务回滚
  • 给自己的博客网站加上酷炫的初音未来音乐游戏?
  • 浅谈Golang中select的用法
  • 如何使用Mybatis第三方插件--PageHelper实现分页操作
  • 我的业余项目总结
  • 由插件封装引出的一丢丢思考
  • # Redis 入门到精通(九)-- 主从复制(1)
  • #if 1...#endif
  • #我与Java虚拟机的故事#连载08:书读百遍其义自见
  • #职场发展#其他
  • $().each和$.each的区别
  • (003)SlickEdit Unity的补全
  • (007)XHTML文档之标题——h1~h6
  • (回溯) LeetCode 40. 组合总和II
  • (精确度,召回率,真阳性,假阳性)ACC、敏感性、特异性等 ROC指标
  • (文章复现)基于主从博弈的售电商多元零售套餐设计与多级市场购电策略
  • (一)、软硬件全开源智能手表,与手机互联,标配多表盘,功能丰富(ZSWatch-Zephyr)
  • (原创)boost.property_tree解析xml的帮助类以及中文解析问题的解决
  • (原創) 如何解决make kernel时『clock skew detected』的warning? (OS) (Linux)
  • (原創) 如何優化ThinkPad X61開機速度? (NB) (ThinkPad) (X61) (OS) (Windows)
  • (转)linux自定义开机启动服务和chkconfig使用方法
  • .DFS.
  • .equal()和==的区别 怎样判断字符串为空问题: Illegal invoke-super to void nio.file.AccessDeniedException
  • .NET delegate 委托 、 Event 事件
  • .Net FrameWork总结
  • .net 提取注释生成API文档 帮助文档
  • .NET8使用VS2022打包Docker镜像