当前位置: 首页 > news >正文

【pytorch12】什么是梯度

说明

  • 导数
  • 偏微分
  • 梯度

梯度:是一个向量,向量的每一个轴是每一个方向上的偏微分
梯度是有方向也有大小,梯度的方向代表函数在当前点的一个增长的方向,然后这个向量的长度代表了这个点增长的速率

在这里插入图片描述
蓝色代表比较小的值,红色代表比较大的值,中间的箭头比较长,方向是由一个极小值指向一个极大值,因此中间这部分梯度反应了函数的增长的方向,说明了从这个方向增长这个方向是最快的

如何搜索到一个极小值?

一般情况下我们搜索的是极小值,如果想要搜索极大值的话,可以把loss变成负号,就可以通过搜索一个极小值解来搜索极大值解

在这里插入图片描述
所以这个函数的梯度是(2 θ 1 \theta_{1} θ1,2 θ 2 \theta_{2} θ2),再求(0,0)处的一个梯度情况,因此有时候会陷入到一个局部最小值的情况

在这里插入图片描述
在这里插入图片描述
红色是最原始版本的梯度下降来搜索会卡在马鞍的点上
在这里插入图片描述
对于任何的一个点和另外的一个点,我们拉一条直线,这条直线中间的中点以及中点所对应的函数的值,例如定义为z1,z2且z1>z2,叫做凸函数,对于这种情况可以找到一个全局最优解

存在且不太常见的
在这里插入图片描述
存在局部极大和局部极小,存在多个局部极小值

实际的例子:ResNet-56的平面
在这里插入图片描述
对于函数的输出可能有无数多个w参数,对于ResNet可以有上千万个W的参数f=(w1,w2,…),把上千万的自变量可视化到一个二维的平面,可能会陷入到无数多的局部极小值中,即使有全局最小值解,因此对于一个深层次的神经网络,取搜索的时候可能找到一个表现不满意的因为此时的解可能是一个局部极小值解,因此网络的精度不会特别高,Resnet加了一个shortcut的模块,在神经网络的旁边加了一条支路,发现神经网络可以变得很深同时也可以优化的很好,可视化后会变成第二个平面

使用梯度来搜索最小值的情况下,除了会遇到局部最小值,还可能遇到鞍点
在这里插入图片描述

优化器表现

  • 初始状态
  • 学习率
  • 动量(即如何逃离局部极小值)

初始状态

在这里插入图片描述
对于初始状态的不同,会影响找到的是全局解还是局部极小值这样的情况,搜索的路径也可能不一样,因此大家再做深度学习的时候函数的全职一定要初始化,而且初始化的时候如果没有把握就按照目前主流的初始化的方法
在这里插入图片描述
上图两种初始化,左边会到全局最小解,右边会到局部极小值,不同的初始化状态会得到不一样的结果

学习率

在这里插入图片描述

学习率设置为1的时候(比较大),步长会比较大,但实际上我们需要的情况是左边蓝色的点慢慢下降而不是左边跳到右边再跳到左边,是因为学习率设置的过大,会一步跨的太长直接跨过了最小值,对于比较好的函数还可以慢慢震荡到最小值,但是大部分现实情况是直接不收敛了,一开始要把learning rate设置的小一点,0.01或0.001这样,如果发现收敛了可以试着大一点这样会让收敛的速度会快一点

学习率也会影响收敛的精度,例如到最小值附近learning rate还是很大会一直在附近震动永远到不了最小值,只会得到一个近似比较好的情况,这种时候要慢慢减小learning rate

如何逃出局部最小值
在这里插入图片描述

很有可能搜索到局部最小值就停止了,但是还有最小值,这时候可以添加一个动量,这个动量可以直观的理解为惯性,也就是说在局部极小值左边发现梯度呈现右下降的趋势,在右边发现梯度呈左下角的趋势,如果在此时考虑一个惯性的话,在右边的时候梯度会引导你回去到局部最小值,但是本来就是向右去降低梯度的,如果可以考虑到一个惯性的话,假设向右走是v1向量向左走是v2向量,把这两个向量综合一下就会得到一个朝向于偏向v2的方向

常见函数的梯度

在这里插入图片描述
简单感知机线性模型的求解
在这里插入图片描述
二次模型的梯度
在这里插入图片描述
指数求解梯度的方式
在这里插入图片描述
线性感知机的输出和真实label之间的均方差
在这里插入图片描述

log函数求梯度
在这里插入图片描述

相关文章:

  • 基于SpringBoot的就业信息管理系统
  • MySQL调优
  • 紧急应对!六氟化硫泄漏报警处理全攻略
  • LMT加仿真,十一届大唐杯全国总决赛
  • C语言 do while 循环语句练习 中
  • Docker 容器连接
  • 高级java每日一道面试题-2024年7月5日
  • vue+openlayers之几何图形交互绘制基础与实践
  • 晨持绪电商:大学毕业生投资抖音网店怎么样
  • HTML如何在图片上添加文字
  • 新手怎么使用GitLab?
  • 问题记录-工作
  • Linux启动elasticsearch,提示权限不够
  • nrm工具——npm源管理器
  • echarts实现3D柱状图(视觉层面)
  • [译] 理解数组在 PHP 内部的实现(给PHP开发者的PHP源码-第四部分)
  • 2018以太坊智能合约编程语言solidity的最佳IDEs
  • iOS 颜色设置看我就够了
  • Javascript Math对象和Date对象常用方法详解
  • JS基础篇--通过JS生成由字母与数字组合的随机字符串
  • react 代码优化(一) ——事件处理
  • vue2.0项目引入element-ui
  • 分享几个不错的工具
  • 汉诺塔算法
  • 移动端解决方案学习记录
  • #图像处理
  • (12)Linux 常见的三种进程状态
  • (C#)获取字符编码的类
  • (二十五)admin-boot项目之集成消息队列Rabbitmq
  • (二刷)代码随想录第16天|104.二叉树的最大深度 559.n叉树的最大深度● 111.二叉树的最小深度● 222.完全二叉树的节点个数
  • (十八)用JAVA编写MP3解码器——迷你播放器
  • (转)iOS字体
  • .mkp勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复
  • .NET DevOps 接入指南 | 1. GitLab 安装
  • .net 使用$.ajax实现从前台调用后台方法(包含静态方法和非静态方法调用)
  • .net 写了一个支持重试、熔断和超时策略的 HttpClient 实例池
  • .net 桌面开发 运行一阵子就自动关闭_聊城旋转门家用价格大约是多少,全自动旋转门,期待合作...
  • .NET6使用MiniExcel根据数据源横向导出头部标题及数据
  • .net连接MySQL的方法
  • [ vulhub漏洞复现篇 ] ECShop 2.x / 3.x SQL注入/远程执行代码漏洞 xianzhi-2017-02-82239600
  • [AutoSar NVM] 存储架构
  • [BUUCTF NewStarCTF 2023 公开赛道] week3 crypto/pwn
  • [BZOJ1060][ZJOI2007]时态同步 树形dp
  • [DM复习]Apriori算法-国会投票记录关联规则挖掘(上)
  • [hdu 2826] The troubles of lmy [简单计算几何 - 相似]
  • [HeMIM]Cl,[AeMIM]Br,[CeEIM]Cl,([HO-PECH-MIM]Cl,[HOOC-PECH-MIM]Cl改性酚醛树脂
  • [IE技巧] 如何关闭Windows Server版IE的安全限制
  • [LeetCode周赛复盘] 第 310 场周赛20220911
  • [LeetCode周赛复盘] 第 312 场周赛20220925
  • [NOIP2014] 提高组 洛谷P1941 飞扬的小鸟
  • [Python GUI PyQt] PyQt5快速入门
  • [Python] 输入与输出
  • [Python]list.append字典的时候,修改字典会导致list内容变化的问题
  • [python开发模拟netcat工具] BHPnet
  • [SHELL]shell scripts笔记(1)