当前位置：首页 > news >正文

神经网络常用的训练方式,人工神经网络训练过程

news 来源：原创 2024/4/29 9:16:53

深度神经网络是如何训练的？

Coursera的Ng机器学习，UFLDL都看过。没记错的话Ng的机器学习里是直接给出公式了，虽然你可能知道如何求解，但是即使不知道完成作业也不是问题，只要照着公式写就行。

反正我当时看的时候心里并没能比较清楚的明白。我觉得想了解深度学习UFLDL教程-Ufldl是不错的。有习题，做完的话确实会对深度学习有更加深刻的理解，但是总还不是很清晰。

后来看了LiFeiFei的StanfordUniversityCS231n:ConvolutionalNeuralNetworksforVisualRecognition，我的感觉是对CNN的理解有了很大的提升。

沉下心来推推公式，多思考，明白了反向传播本质上是链式法则(虽然之前也知道，但是当时还是理解的迷迷糊糊的)。所有的梯度其实都是对最终的loss进行求导得到的，也就是标量对矩阵or向量的求导。

当然同时也学到了许多其他的关于cnn的。并且建议你不仅要完成练习，最好能自己也写一个cnn，这个过程可能会让你学习到许多更加细节和可能忽略的东西。

这样的网络可以使用中间层构建出多层的抽象，正如我们在布尔线路中做的那样。

例如，如果我们在进行视觉模式识别，那么在第一层的神经元可能学会识别边，在第二层的神经元可以在边的基础上学会识别出更加复杂的形状，例如三角形或者矩形。第三层将能够识别更加复杂的形状。依此类推。

这些多层的抽象看起来能够赋予深度网络一种学习解决复杂模式识别问题的能力。然后，正如线路的示例中看到的那样，存在着理论上的研究结果告诉我们深度网络在本质上比浅层网络更加强大。

谷歌人工智能写作项目：神经网络伪原创

人工智能中神经网络训练过程

如何用Tensorflow 快速搭建神经网络

在MNIST数据集上，搭建一个简单神经网络结构，一个包含ReLU单元的非线性化处理的两层神经网络。

在训练神经网络的时候，使用带指数衰减的学习率设置、使用正则化来避免过拟合、使用滑动平均模型来使得最终的模型更加健壮。

程序将计算神经网络前向传播的部分单独定义一个函数inference，训练部分定义一个train函数，再定义一个主函数main。

二、分析与改进设计1.程序分析改进第一，计算前向传播的函数inference中需要将所有的变量以参数的形式传入函数，当神经网络结构变得更加复杂、参数更多的时候，程序的可读性将变得非常差。

第二，在程序退出时，训练好的模型就无法再利用，且大型神经网络的训练时间都比较长，在训练过程中需要每隔一段时间保存一次模型训练的中间结果，这样如果在训练过程中程序死机，死机前的最新的模型参数仍能保留，杜绝了时间和资源的浪费。

第三，将训练和测试分成两个独立的程序，将训练和测试都会用到的前向传播的过程抽象成单独的库函数。这样就保证了在训练和预测两个过程中所调用的前向传播计算程序是一致的。

2.改进后程序设计该文件中定义了神经网络的前向传播过程，其中的多次用到的weights定义过程又单独定义成函数。

通过tf.get_variable函数来获取变量，在神经网络训练时创建这些变量，在测试时会通过保存的模型加载这些变量的取值，而且可以在变量加载时将滑动平均值重命名。

所以可以直接通过同样的名字在训练时使用变量自身，在测试时使用变量的滑动平均值。该程序给出了神经网络的完整训练过程。在滑动平均模型上做测试。

通过tf.train.get_checkpoint_state(mnist_train.MODEL_SAVE_PATH)获取最新模型的文件名，实际是获取checkpoint文件的所有内容。

深度神经网络具体的工作流程是什么样的？

第一，深度神经网络不是黑盒，个人电脑开机直到神经网络运行在内存中的每一比特的变化都是可以很细微的观察的。没有任何神秘力量，没有超出科学解释的现象发生。

第二，深度神经网络的工作方式是基于传统的电脑架构之上的，就是数据+算法。但人们确实从中窥探到了一种全新的电子大脑方式。所以目前有研究提炼一些常用神经网络算法加速硬件。微软等巨头则在开发量子计算。

第三，深度神经网络是一个很初级的特征自动提取器。说初级因为简单粗暴。以前为了节约算力特征关键模型都是人工亲自设定。而现在这部分工作随着算力的提高可以自动化。

所以从某种意义上来说深度神经网络也是一种自动编程机，但和人们相比，一点点小小的自动化都需要很多很多的计算力支持，这一点也不重要，重要的是，它能工作(手动英文)。那么深度神经网络究竟是什么呢？

它是一个能迭代更新自己的特征提取算法。现在这个算法可是像全自动高级工厂，数据往里一丢，不得了！整个工厂里面所有机器都动了起来。没见过的小伙伴当场就被吓呆瓜了，用流行的话说叫懵住。

几千只机械手把数据搬来搬去，拿出魔方一样的盒子装来装去又倒出来。整个场面就叫一个震撼。算法运行规模也更大了。

BP神经网络原理

人工神经网络有很多模型，但是日前应用最广、基本思想最直观、最容易被理解的是多层前馈神经网络及误差逆传播学习算法（ErrorBack-Prooaeation），简称为BP网络。

在1986年以Rumelhart和McCelland为首的科学家出版的《ParallelDistributedProcessing》一书中，完整地提出了误差逆传播学习算法，并被广泛接受。

多层感知网络是一种具有三层或三层以上的阶层型神经网络。

典型的多层感知网络是三层、前馈的阶层网络（图4.1），即：输入层、隐含层（也称中间层）、输出层，具体如下：图4.1三层BP网络结构（1）输入层输入层是网络与外部交互的接口。

一般输入层只是输入矢量的存储层，它并不对输入矢量作任何加工和处理。输入层的神经元数目可以根据需要求解的问题和数据表示的方式来确定。

一般而言，如果输入矢量为图像，则输入层的神经元数目可以为图像的像素数，也可以是经过处理后的图像特征数。

（2）隐含层1989年，RobertHechtNielsno证明了对于任何在闭区间内的一个连续函数都可以用一个隐层的BP网络来逼近，因而一个三层的BP网络可以完成任意的n维到m维的映射。

增加隐含层数虽然可以更进一步的降低误差、提高精度，但是也使网络复杂化，从而增加了网络权值的训练时间。

误差精度的提高也可以通过增加隐含层中的神经元数目来实现，其训练效果也比增加隐含层数更容易观察和调整，所以一般情况应优先考虑增加隐含层的神经元个数，再根据具体情况选择合适的隐含层数。

（3）输出层输出层输出网络训练的结果矢量，输出矢量的维数应根据具体的应用要求来设计，在设计时，应尽可能减少系统的规模，使系统的复杂性减少。

如果网络用作识别器，则识别的类别神经元接近1，而其它神经元输出接近0。

以上三层网络的相邻层之间的各神经元实现全连接，即下一层的每一个神经元与上一层的每个神经元都实现全连接，而且每层各神经元之间无连接，连接强度构成网络的权值矩阵W。

BP网络是以一种有教师示教的方式进行学习的。首先由教师对每一种输入模式设定一个期望输出值。然后对网络输入实际的学习记忆模式，并由输入层经中间层向输出层传播（称为“模式顺传播”）。

实际输出与期望输出的差即是误差。按照误差平方最小这一规则，由输出层往中间层逐层修正连接权值，此过程称为“误差逆传播”（陈正昌，2005）。

所以误差逆传播神经网络也简称BP（BackPropagation）网。随着“模式顺传播”和“误差逆传播”过程的交替反复进行。

网络的实际输出逐渐向各自所对应的期望输出逼近，网络对输入模式的响应的正确率也不断上升。通过此学习过程，确定下各层间的连接权值后。

典型三层BP神经网络学习及程序运行过程如下（标志渊，2006）：（1）首先，对各符号的形式及意义进行说明：网络输入向量Pk=（a1，a2，...，an）；网络目标向量Tk=（y1，y2，...，yn）；中间层单元输入向量Sk=（s1，s2，...，sp），输出向量Bk=（b1，b2，...，bp）；输出层单元输入向量Lk=（l1，l2，...，lq），输出向量Ck=（c1，c2，...，cq）；输入层至中间层的连接权wij，i=1，2，...，n，j=1，2，...p；中间层至输出层的连接权vjt，j=1，2，...，p，t=1，2，...，p；中间层各单元的输出阈值θj，j=1，2，...，p；输出层各单元的输出阈值γj，j=1，2，...，p；参数k=1，2，...，m。

（2）初始化。给每个连接权值wij、vjt、阈值θj与γj赋予区间（-1，1）内的随机值。（3）随机选取一组输入和目标样本提供给网络。

（4）用输入样本、连接权wij和阈值θj计算中间层各单元的输入sj，然后用sj通过传递函数计算中间层各单元的输出bj。

基坑降水工程的环境效应与评价方法bj=f（sj）j=1，2，...，p（4.5）（5）利用中间层的输出bj、连接权vjt和阈值γt计算输出层各单元的输出Lt，然后通过传递函数计算输出层各单元的响应Ct。

基坑降水工程的环境效应与评价方法Ct=f（Lt）t=1，2，...，q（4.7）（6）利用网络目标向量，网络的实际输出Ct，计算输出层的各单元一般化误差。

基坑降水工程的环境效应与评价方法（7）利用连接权vjt、输出层的一般化误差dt和中间层的输出bj计算中间层各单元的一般化误差。

基坑降水工程的环境效应与评价方法（8）利用输出层各单元的一般化误差与中间层各单元的输出bj来修正连接权vjt和阈值γt。

基坑降水工程的环境效应与评价方法（9）利用中间层各单元的一般化误差，输入层各单元的输入Pk=（a1，a2，...，an）来修正连接权wij和阈值θj。

基坑降水工程的环境效应与评价方法（10）随机选取下一个学习样本向量提供给网络，返回到步骤（3），直到m个训练样本训练完毕。

（11）重新从m个学习样本中随机选取一组输入和目标样本，返回步骤（3），直到网路全局误差E小于预先设定的一个极小值，即网络收敛。如果学习次数大于预先设定的值，网络就无法收敛。（12）学习结束。

可以看出，在以上学习步骤中，（8）、（9）步为网络误差的“逆传播过程”，（10）、（11）步则用于完成训练和收敛过程。通常，经过训练的网络还应该进行性能测试。

测试的方法就是选择测试样本向量，将其提供给网络，检验网络对其分类的正确性。测试样本向量中应该包含今后网络应用过程中可能遇到的主要典型模式（宋大奇，2006）。

这些样本可以直接测取得到，也可以通过仿真得到，在样本数据较少或者较难得到时，也可以通过对学习样本加上适当的噪声或按照一定规则插值得到。