当前位置：首页 > news >正文

批量归一化（BN）和层归一化（LN）的区别

news 来源：原创 2024/9/29 11:23:13

批量归一化（Batch Normalization, BN）和层归一化（Layer Normalization, LN）是深度学习中常用的两种归一化技术，它们主要用于解决训练过程中的内部协变量偏移问题，加速模型收敛和提高稳定性。

1. 为什么需要归一化

由于数据来源的不同，不同数据的特征分布是不一致的。模型在训练过程中学习了这个批次的特征分布，如果下一批次的特征分布截然不同，那么模型的参数就会剧烈变化，得学习很多次之后才能平衡好不同特征分布的权重，造成训练过程变慢。

借用李沐老师的一张图：

在深度网络中，梯度通过反向传播需要从顶部层逐层传递到底部层。由于链式法则，每传递一层，梯度都会乘以该层权重的导数。如果这些导数较小，梯度会迅速衰减，导致底部层的权重更新非常缓慢，这就是所谓的梯度消失问题。
在深度学习中，底层数据会学习到底层的特征，比如图像的轮廓，顶层数据会学习到高级的特征，比如细腻的纹理等等。高级的纹理特征往往依赖于底层的基础特征，如果底层没有收敛的话，顶层的微调意义并不大。每一次的底层特征变化都会让顶层重新学习，所以底层的收敛慢决定了整个模型的收敛速度慢。
因此需要归一化来让将所有批数据强制在统一的数据分布下，加速收敛。

2. 什么是归一化

以批量归一化举例

但是批量归一化同时也降低了模型的拟合能力，归一化之后的输入分布被强制拉到均值为0和标准差为1的正态分布上来，简单来说特征之间的距离不会跑的很远，大部分特征都在正态分布的那个峰值附近。

以Sigmoid激活函数为例，批量归一化之后数据整体处于函数的非饱和区域，只包含线性变换（多层的线性函数跟一层线性网络是等价的，网络的表达能力下降），破坏了之前学习到的特征分布。因此，为了使得归一化不对网络的表达能力造成负面印象，可以通过一个附加的缩放和平移变换改变取值区间。

3. 归一化是怎么实现的

批量归一化和层归一化的区别可以看下图

如果卷积计算输出多个通道，我们需要对这些通道的输出分别做批量归一化，且每个通道都拥有独立的拉伸和偏移参数，并均为标量。设小批量中有N个样本。在单个通道上，假设卷积计算输出的高和宽分别为h和w。我们需要对该通道中N×h×w个元素同时做批量归一化。

而层归一化就是对一个样本中的所有通道进行取归一化计算。

个人理解是BN消除特征间的差别而保留样本间的差别，LN保留了特征间的差别而消除了样本间的差别。

4. 注意点

训练时的均值和方差是计算每个批次中的样本，而训练时则是计算所有样本中的均值和方差。

相关文章：

【电子通识】什么是电力电子

001----flask

C#，JavaScript实现浮点数格式化自动保留合适的小数位数

Flutter 中的 SliverLayoutBuilder 小部件：全面指南

Flutter：革新移动开发的开源框架

Android 图表开发开源库 MPAndroidChart 使用总结

C++面试题其二

学习小心意——python的构造方法和析构方法

Configure Google Chrome Settings with Group Policy

B端UI设计，演绎高情逸态之妙

生物制药企业选择谷歌云的理由有哪些？

PCIe的链路状态

Linux 内核之 mmap 内存映射触发的缺页异常 Page Fault

HTTP 的三次握手

【MATLAB高级编程】入门篇 | 向量化编程

@angular/forms 源码解析之双向绑定

30秒的PHP代码片段（1）数组 - Array

Debian下无root权限使用Python访问Oracle

go append函数以及写入

java取消线程实例

js面向对象

LeetCode18.四数之和 JavaScript

RedisSerializer之JdkSerializationRedisSerializer分析

Vue--数据传输

Vue组件定义

初识 beanstalkd

从setTimeout-setInterval看JS线程

聚类分析——Kmeans

如何使用 JavaScript 解析 URL

腾讯优测优分享 | Android碎片化问题小结——关于闪光灯的那些事儿

一起参Ember.js讨论、问答社区。

移动端唤起键盘时取消position:fixed定位

用jquery写贪吃蛇

《天龙八部3D》Unity技术方案揭秘

比特币大跌的 2 个原因

#Datawhale AI夏令营第4期#多模态大模型复盘

（1）STL算法之遍历容器

(C++)八皇后问题

(LeetCode) T14. Longest Common Prefix

（Pytorch框架）神经网络输出维度调试，做出我们自己的网络来！！（详细教程~）

（rabbitmq的高级特性）消息可靠性

（附源码）springboot工单管理系统毕业设计 964158

(三分钟)速览传统边缘检测算子

（三维重建学习）已有位姿放入colmap和3D Gaussian Splatting训练

（十八）SpringBoot之发送QQ邮件

(续)使用Django搭建一个完整的项目(Centos7+Nginx)

(原)本想说脏话,奈何已放下

（原创）Stanford Machine Learning (by Andrew NG) --- (week 9) Anomaly DetectionRecommender Systems...

(转)重识new

（转载）PyTorch代码规范最佳实践和样式指南

**登录+JWT+异常处理+拦截器+ThreadLocal-开发思想与代码实现**

.helper勒索病毒的最新威胁：如何恢复您的数据？

.NET CLR Hosting 简介

.net core 外观者设计模式实现，多种支付选择

.NET Core 项目指定SDK版本