当前位置: 首页 > news >正文

机器学习——梯度下降算法

一、梯度下降

梯度下降是一个用来求函数最小值的算法,我们将使用梯度下降算法来求出代价函数J( θ0,θ1 ) 的最小值。关于代价函数的介绍见这篇文章。

梯度下降背后的思想是:开始时我们随机选择一个参数的组合(θ0,θ1,…,θn ),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否就是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。
在这里插入图片描述
想象一下你正站立在山的这一点上,站立在你想象的公园这座红色山上,在梯度下降算法中,我们要做的就是旋转360度,看看我们的周围,并问自己要在某个方向上,用小碎步尽快下山。这些小碎步需要朝什么方向?如果我们站在山坡上的这一点,你看一下周围,你会发现最佳的下山方向,你再看看周围,然后再一次想想,我应该从什么方向迈着小碎步下山?然后你按照自己的判断又迈出一步,重复上面的步骤,从这个新的点,你环顾四周,并决定从什么方向将会最快下山,然后又迈进了一小步,并依此类推,直到你接近局部最低点的位置。

批量梯度下降(batch gradient descent)算法的公式为:
在这里插入图片描述
其中 α 是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。
J( θ0,θ1) 是代价函数 。

在梯度下降算法中,还有一个更微妙的问题,梯度下降中,我们要更新 θ0 和 θ1 ,当 j=0 和j=1时,会产生更新,所以你将更新J(θ0 )和J(θ1 )。实现梯度下降算法的微妙之处是,在这个表达式中,如果你要更新这个等式,你需要同时更新 θ0 和 θ1,即在这个等式中,我们要这样更新:
θ0:= θ0 ,并更新 θ1:= θ1。
实现方法是:你应该计算公式右边的部分,通过那一部分计算出 θ0 和 θ1 的值,然后同时更新θ0和θ1。
在这里插入图片描述

二、梯度下降的直观理解

上面给出的是数学上关于梯度下降的定义,下面我们更深入研究一下,更直观地感受一下这个算法是做什么的,以及梯度下降算法的更新过程有什么意义。梯度下降算法如下(以一个参数为例):
在这里插入图片描述
描述:对 θ 赋值,使得 J(θ) 按梯度下降最快方向进行,一直迭代下去,最终得到局部最小值。其中α是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大。
在这里插入图片描述
对于这个问题,求导的目的,基本上可以说取这个红点的切线,就是上面这条红色的直线,刚好与函数相切于一点,这条红色直线的斜率,就是这条刚好与函数曲线相切的这条直线,这条直线的斜率正好是这个三角形的高度除以这个水平长度,这条线有一个正斜率,也就是说它有正导数,因此,得到的新的θ1,θ1 更新后等于 θ1 减去一个正数乘以 α。

让我们来看看如果 α 太小或 α 太大会出现什么情况:
如果 α 太小了,即我的学习速率太小,结果就是只能这样像小宝宝一样一点点地挪动,去努力接近最低点,这样就需要很多步才能到达最低点,所以如果 α 太小的话,可能会很慢,因为它会一点点挪动,它会需要很多步才能到达全局最低点。
如果 α 太大,那么梯度下降法可能会越过最低点,甚至可能无法收敛,下一次迭代又移动了一大步,越过一次,又越过一次,一次次越过最低点,直到你发现实际上离最低点越来越远,所以,如果 α 太大,它会导致无法收敛,甚至发散。

在梯度下降法中,当我们接近局部最低点时,梯度下降法会自动采取更小的幅度,这是因为当我们接近局部最低点时,很显然在局部最低时导数等于零,所以当我们接近局部最低时,导数值会自动变得越来越小,所以梯度下降将自动采取较小的幅度,这就是梯度下降的做法。所以实际上没有必要再另外减小 α 。

这就是梯度下降算法,你可以用它来最小化任何代价函数J,不只是线性回归中的代价函数J。

三、梯度下降的线性回归

下面,我们要将梯度下降和代价函数结合。我们将用到此算法,并将其应用于具体的拟合直线的线性回归算法里。

梯度下降算法和线性回归算法比较如图:
在这里插入图片描述
对我们之前的线性回归问题运用梯度下降法,关键在于求出代价函数的导数,即:
在这里插入图片描述
则算法改写成:
在这里插入图片描述
我们刚刚使用的算法,有时也称为批量梯度下降。这个名字”批量梯度下降”,指的是在梯度下降的每一步中,我们都用到了所有的训练样本,在梯度下降中,在计算微分求导项时,我们需要进行求和运算,所以,在每一个单独的梯度下降中,我们最终都要计算这样一个东西,这个项需要对所有m个训练样本求和。因此,批量梯度下降法这个名字说明了我们需要考虑所有这一"批"训练样本,而事实上,有时也有其他类型的梯度下降法,不是这种"批量"型的,不考虑整个的训练集,而是每次只关注训练集中的一些小的子集。

以上便是梯度下降算法的一些内容。这篇文章是我学习吴恩达机器学习记录的一些笔记,有问题欢迎大家指正!

相关文章:

  • 64.【网络编程】
  • Python爬虫-网页认识
  • 面试官:深度不够,建议回去深挖
  • [ vulhub漏洞复现篇 ] Apache APISIX 默认密钥漏洞 CVE-2020-13945
  • 接口测试用例生成工具介绍及应用
  • C#接入 NPOI
  • 面试百问:项目上线后才发现bug怎么办?
  • SpringBoot+Vue实现前后端分离网上药店平台
  • Simulink 自动代码生成电机控制:基于Keil软件集成
  • LQ0103 子串分值【字符串】
  • 数据库实战经验分享(全量表,增量表,拉链表,流水表,快照表)
  • 【node.js从入门到精通】使用express创建web服务器,路由,进行中间件的创建链接路由及其他中间件
  • [附源码]Java计算机毕业设计SSM电力公司员工安全培训系统
  • stm32f4xx-ADC
  • Linux命令老是记不住?一篇文章帮你解决。Linux常用命令汇总
  • angular组件开发
  • CentOS从零开始部署Nodejs项目
  • Debian下无root权限使用Python访问Oracle
  • express如何解决request entity too large问题
  • php的插入排序,通过双层for循环
  • Rancher如何对接Ceph-RBD块存储
  • vue2.0开发聊天程序(四) 完整体验一次Vue开发(下)
  • webpack+react项目初体验——记录我的webpack环境配置
  • 前端临床手札——文件上传
  • 前端面试题总结
  • 前端性能优化——回流与重绘
  • 小程序 setData 学问多
  • 新手搭建网站的主要流程
  • 一个项目push到多个远程Git仓库
  • !!Dom4j 学习笔记
  • #{}和${}的区别?
  • (4)事件处理——(2)在页面加载的时候执行任务(Performing tasks on page load)...
  • (八)Spring源码解析:Spring MVC
  • (附源码)springboot 校园学生兼职系统 毕业设计 742122
  • (求助)用傲游上csdn博客时标签栏和网址栏一直显示袁萌 的头像
  • (十六)一篇文章学会Java的常用API
  • (算法二)滑动窗口
  • (自适应手机端)响应式新闻博客知识类pbootcms网站模板 自媒体运营博客网站源码下载
  • .gitattributes 文件
  • .NET 8 编写 LiteDB vs SQLite 数据库 CRUD 接口性能测试(准备篇)
  • .NET Core Web APi类库如何内嵌运行?
  • .NET Standard 支持的 .NET Framework 和 .NET Core
  • .NET 使用配置文件
  • .NET 指南:抽象化实现的基类
  • .NET 中什么样的类是可使用 await 异步等待的?
  • .NET/C# 编译期能确定的字符串会在字符串暂存池中不会被 GC 垃圾回收掉
  • .NET/C# 异常处理:写一个空的 try 块代码,而把重要代码写到 finally 中(Constrained Execution Regions)
  • .NET框架类在ASP.NET中的使用(2) ——QA
  • .NET文档生成工具ADB使用图文教程
  • .net中的Queue和Stack
  • .pings勒索病毒的威胁:如何应对.pings勒索病毒的突袭?
  • @ 代码随想录算法训练营第8周(C语言)|Day53(动态规划)
  • @Bean有哪些属性
  • @CacheInvalidate(name = “xxx“, key = “#results.![a+b]“,multi = true)是什么意思
  • [.NET 即时通信SignalR] 认识SignalR (一)