当前位置：首页 > news >正文

《DEEP LEARNING AS A MIXED CONVEX COMBINATORIAL OPTIMIZATION PROBLEM》解读

news 来源：原创 2024/4/27 23:55:18

来看看这篇号称要替代BP算法的文章到底在讲啥吧！！！！
论文地址

摘要
随着神经网络向着更深更广的方向发展，学习硬阈值的神经网络变得越来越重要。一方面为了神经网络的量化（quantization），可以大幅度的减少时间和能量消耗；另一方面为了构建大型的深度神经网络的集成系统，里面存在着不可导的组件，因而为了有效的学习，必须避免梯度在传递过程中消减至零或者发散至无穷。然而，梯度下降法并不适用于硬阈值的神经网络，所以我们并不知道该怎么学习这样的网络。我们提出，为硬阈值神经网络的隐藏层设置学习目标（target）来减小损失函数，这样一个问题实质上是一个离散优化问题，因而是可解的。给定了每一层的学习目标，神经网络就分解成了一层一层独立的感知机（perceptron），便可以用标准的凸优化方法来解决。据此，我们提出了递归小批算法（recursive mini-batch algorithm）来解决硬阈值深度神经网络的学习问题，并指出STE（straight-through estimator）可以看作本算法的一个特例。在实验中，我们展示了，新算法和STE相比，在经过一些设定之后提高了AlexNet、ResNet-18在ImageNet上的分类准确率。

关于神经网络最初的研究工作，是用单层的硬阈值神经网络做分类任务，即感知机模型。所谓硬阈值就是指激活函数是一个阶梯型函数，比如符号函数sign(x)。硬阈值函数的毛病在于它的导数处处为零，只在函数跳跃的地方有个无穷大的导数，这样的性质是没有办法使用BP算法的。于是人们后来想到用软阈值函数，比如sigmoid，tanh，relu等方便求导的函数，在此基础上运用误差反向传播算法，神经网络便如鱼得水风靡当下。

但是随着神经网络越来越深越来越臃肿，于是出于为神经网络量化（quantization）的考虑（暂时不懂何谓量化，可能是用低精度代替高精度的轻量化？），便开始研究硬阈值深度网络的可行性。选用硬阈值的理由很直接，硬阈值函数只有两个离散的输出结果，计算起来非常省时省力，而软阈值的输出是连续的，甚至还要做指数运算。出于省时节能的考虑，在牺牲部分精度的前提下节省时间和能源是非常合理的。而且硬阈值函数的输出大小和输入是独立的，因为输出就是两个离散值，所以可以有效避免软阈值神经网络的梯度耗散或发散的问题，解决了低精度的网络在训练中出现的问题。这对于构建大型的神经网络是至关重要的。

相关数学定义

给定数据集

D = {(x (i), t (i))} m i = 1

$D=\{(x^{(i)},t^{(i)})\}_{i=1}^m$
其中输入

x∈Rn $x\in R^{n}$ ，学习目标(target)

t∈{−1,1} $t\in \{-1,1\}$

一个 $l$ 层的深度神经网络可以表示为

y = f (x, W) = f (W l g (W l - 1 . . . g (W 1, x) . . .))

$y=f(x,W)=f(W_{l}g(W_{l-1}...g(W_1,x)...))$
其中

W $W$ 表示待优化的所有参数，

Wd∈Rnd×nd−1 $W_d\in R^{n_d\times n_{d-1}}$ 表示第d-1层到第d层的传递系数矩阵，

nd $n_d$ 代表第d层的神经元数，第0层代表输入。

定义1：

一个数据集 $\{(x^{(i)},t^{(i)})\}_{i=1}^m$ 是线性可分的，当且仅当，存在向量 $w\in R^n$ 和实数 $\gamma > 0$ 使得

(w (i) \cdot x (i)) t (i) > γ

$(w^{(i)}\cdot x^{(i)})t^{(i)}>\gamma$ 对所有的

i=1...m $i=1...m$ 成立。

这是一个很强的条件，以至于简单的XOR函数都不是线性可分的，使得感知机不能用来学习XOR函数。

定义2：

对于数据集 $D=\{X,T_l\}$ , 其指定了一个 $l$ 层硬阈值深度神经网络 $f(X;W)$ 第一层的输入为 $T_0\triangleq X$ ，最后一层的输出为 $T_l$ 。对于该网络的一个逐层学习目标 $T=\{T_1,T_2...T_l\}$ 是 可行的 , 当且仅当，对于每一层 $d=1,2,...,l$ ，其输入 $T_{d-1}$ 和输出目标 $T_{d,j:}$ 是线性可分的。其中， $j=1,2,...,n_d$ 。

逐层学习示意图

命题1：

对于数据集 $D=\{X,T_l\}$ ， $l$ 层硬阈值深度神经网络 $f(X;W)$ 已经找到一组可行的逐层学习目标 $T=\{T_1,T_2...T_l\}$ ，每一层以输入为 $T_{d-1}$ 、输出目标为 $T_{d}$ 独立地训练（其中 $T_0\triangleq X$ ），那么该神经网络 $f$ 一定能准确的对数据集 $D$ 进行分类，使得 $(w^{(i)}\cdot x^{(i)})t^{(i)}>0$ 对所有 $i$ 成立。