当前位置: 首页 > news >正文

Datawhale X 李宏毅苹果书 AI夏令营-深度学习进阶task3:批量归一化

1.批量归一化

如果误差表面很崎岖,它比较难训练。批量归一化(Batch Normalization,BN)就是其中一个“把山铲平”的想法

如图 所示,假设两个参数对损失的斜率差别非常大,在 w1 这个方向上面,斜率变化很小,在 w2 这个方向上面斜率变化很大。

2.特征归一化

如果输入的特征范围相差很多,那么就可能会出现以上问题。如果我们可以给不同的维度,同样的数值范围的话,那我们可能就可以制造比较好的误差表面,让训练变得比较容易一点其实有很多不同的方法,这些不同的方法往往就合起来统称为特征归一化(feature normalization)。

以下所讲的方法只是特征归一化的一种可能性,即 Z 值归一化(Z-score normalization),也称为标准化(standardization)。假设 x1 到 xR,是我们所有的训练数据的特征向量。我们把所有训练数据的特征向量,统统都集合起来。向量 x1 里面就x11 代表 x1 的第一个元素,x21 代表 x2 的第一个元素,以此类推。我们把不同笔数据即不同特征向量,同一个维度里面的数值,把它取出来,对于每个维度 i,计算其平均值(mean) mi和标准差(standard deviation)σi。接下来我们就可以做一种归一化。

3.深度学习中的归一化

x˜ 代表归一化的特征,把它丢到深度网络里面,去做接下来的计算和训练。x˜1 通过第一层得到 z1,有可能通过激活函数,不管是选 sigmoid 或者 ReLU 都可以,再得到 a1,接着再通过下一层等等。

接下来可以通过激活函数得到其他向量,µ 跟 σ 都是根据 z1, z2, z3 计算出来的。改变了 z1 的值,a1 的值也会改变,µ 和 σ 也会改变。µ,σ 改后,z2, a2, z3, a3的值也会改变。之前的 x˜1, x˜2 x˜3 是独立分开处理的,但是在做特征归一化以后,这三个样本变得彼此关联了。所以有做特征归一化的时候,可以把整个过程当做是网络的一部分。即有一个比较大的网络,该网络吃一堆输入,用这堆输入在这个网络里面计算出 µ,σ,接下来产生一堆输出。

测试有时候又称为推断(inference)

批量归一化在测试的时候,并不需要做什么特别的处理,PyTorch 已经处理好了。在训练的时候,如果有在做批量归一化,每一个批量计算出来的 µ,σ,都会拿出来算移动平均(moving average)。假设现在有各个批量计算出来的 µ1, µ2, µ3, · · · · · · , µt,则可以计算移动平均

其中,µ¯ 是 µ 的个平均值,p 是因子,这也是一个常数,这也是一个超参数,也是需要调的那种。

4.内部协变量偏移

原始的批量归一化论文里面提出内部协变量偏移(internal covariate shift)概念。我们在计算 B 更新到 B′ 的梯度的时候,这个时候前一层的参数是 A,或者是前一层的输出是 a。那当前一层从 A 变成 A′ 的时候,其输出就从 a 变成 a′ 。但是我们计算这个梯度的时候,是根据 a 算出来,所以这个更新的方向也许它适合用在 a 上,但不适合用在 a′ 上面。因为我们每次都有做批量归一化,就会让 a 和a′ 的分布比较接近,也许这样就会对训练有帮助。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 接口请求400
  • C#面试题系列--动态更新
  • ES6中是如何实现模块化
  • 【聚星文社】AI一键生成工具素材包
  • 收藏夹里的“小网站”被误报违规不让上怎么办?如何将Chrome和Edge安装到 D 盘(含用户数据),重装系统也不会丢失收藏夹和密码?
  • 碳水化合物的摄入量笔记
  • 如何选择合适的合同比对工具以满足企业的不同需求?
  • 虚拟化技术 使用vSphere Client管理ESXi服务器系统
  • AI写作保姆级方法论第六节-AI的终极调教心法(问题+解决方案)
  • PP强酸强碱氮气柜和普通氮气柜的区别及共同点
  • 轻量级的git-server工具:docker部署gogs
  • React Hooks 的使用场景有哪些?
  • 如何打造一个智能化的远程在线考试系统?
  • 解密注意力机制:从基础概念到Transformer的演化与应用
  • 每日刷题(图论)
  • AHK 中 = 和 == 等比较运算符的用法
  • Android 初级面试者拾遗(前台界面篇)之 Activity 和 Fragment
  • Cumulo 的 ClojureScript 模块已经成型
  • Java IO学习笔记一
  • LeetCode541. Reverse String II -- 按步长反转字符串
  • php的插入排序,通过双层for循环
  • Redis 懒删除(lazy free)简史
  • REST架构的思考
  • Web设计流程优化:网页效果图设计新思路
  • 互联网大裁员:Java程序员失工作,焉知不能进ali?
  • 理清楚Vue的结构
  • 前端每日实战:70# 视频演示如何用纯 CSS 创作一只徘徊的果冻怪兽
  • 使用Maven插件构建SpringBoot项目,生成Docker镜像push到DockerHub上
  • 一个完整Java Web项目背后的密码
  • 第二十章:异步和文件I/O.(二十三)
  • 浅谈sql中的in与not in,exists与not exists的区别
  • 如何正确理解,内页权重高于首页?
  • ​DB-Engines 12月数据库排名: PostgreSQL有望获得「2020年度数据库」荣誉?
  • ​Java基础复习笔记 第16章:网络编程
  • ​一文看懂数据清洗:缺失值、异常值和重复值的处理
  • # dbt source dbt source freshness命令详解
  • ######## golang各章节终篇索引 ########
  • #{}和${}的区别是什么 -- java面试
  • #图像处理
  • (51单片机)第五章-A/D和D/A工作原理-A/D
  • (7)svelte 教程: Props(属性)
  • (floyd+补集) poj 3275
  • (八)Flask之app.route装饰器函数的参数
  • (附源码)计算机毕业设计ssm-Java网名推荐系统
  • .NET 线程 Thread 进程 Process、线程池 pool、Invoke、begininvoke、异步回调
  • .Net--CLS,CTS,CLI,BCL,FCL
  • .net中应用SQL缓存(实例使用)
  • @Slf4j idea标红Cannot resolve symbol ‘log‘
  • @Validated和@Valid校验参数区别
  • [Android开源]EasySharedPreferences:优雅的进行SharedPreferences数据存储操作
  • [bbk5179]第66集 第7章 - 数据库的维护 03
  • [C++][opencv]基于opencv实现photoshop算法可选颜色调整
  • [C++]spdlog学习
  • [c++刷题]贪心算法.N01
  • [codeforces]Recover the String