当前位置：首页 > news >正文

基于神经网络的图像识别,人工神经网络图像识别

news 来源：原创 2024/5/14 13:11:33

如何通过人工神经网络实现图像识别

。

人工神经网络（ArtificialNeuralNetworks）（简称ANN）系统从20世纪40年代末诞生至今仅短短半个多世纪，但由于他具有信息的分布存储、并行处理以及自学习能力等优点，已经在信息处理、模式识别、智能控制及系统建模等领域得到越来越广泛的应用。

尤其是基于误差反向传播（ErrorBackPropagation）算法的多层前馈网络（Multiple-LayerFeedforwardNetwork）(简称BP网络)，可以以任意精度逼近任意的连续函数，所以广泛应用于非线性建模、函数逼近、模式分类等方面。

目标识别是模式识别领域的一项传统的课题，这是因为目标识别不是一个孤立的问题，而是模式识别领域中大多数课题都会遇到的基本问题，并且在不同的课题中，由于具体的条件不同，解决的方法也不尽相同，因而目标识别的研究仍具有理论和实践意义。

这里讨论的是将要识别的目标物体用成像头(红外或可见光等)摄入后形成的图像信号序列送入计算机，用神经网络识别图像的问题。

一、BP神经网络BP网络是采用Widrow-Hoff学习算法和非线性可微转移函数的多层网络。一个典型的BP网络采用的是梯度下降算法，也就是Widrow-Hoff算法所规定的。

backpropagation就是指的为非线性多层网络计算梯度的方法。一个典型的BP网络结构如图所示。我们将它用向量图表示如下图所示。

其中：对于第k个模式对，输出层单元的j的加权输入为该单元的实际输出为而隐含层单元i的加权输入为该单元的实际输出为函数f为可微分递减函数其算法描述如下：（1）初始化网络及学习参数，如设置网络初始权矩阵、学习因子等。

（2）提供训练模式，训练网络，直到满足学习要求。（3）前向传播过程：对给定训练模式输入，计算网络的输出模式，并与期望模式比较，若有误差，则执行（4）；否则，返回（2）。

（4）后向传播过程：a.计算同一层单元的误差；b.修正权值和阈值；c.返回（2）二、BP网络隐层个数的选择对于含有一个隐层的三层BP网络可以实现输入到输出的任何非线性映射。

增加网络隐层数可以降低误差，提高精度，但同时也使网络复杂化，增加网络的训练时间。误差精度的提高也可以通过增加隐层结点数来实现。一般情况下，应优先考虑增加隐含层的结点数。

三、隐含层神经元个数的选择当用神经网络实现网络映射时，隐含层神经元个数直接影响着神经网络的学习能力和归纳能力。

隐含层神经元数目较少时，网络每次学习的时间较短，但有可能因为学习不足导致网络无法记住全部学习内容；隐含层神经元数目较大时，学习能力增强，网络每次学习的时间较长，网络的存储容量随之变大，导致网络对未知输入的归纳能力下降，因为对隐含层神经元个数的选择尚无理论上的指导，一般凭经验确定。

四、神经网络图像识别系统人工神经网络方法实现模式识别，可处理一些环境信息十分复杂，背景知识不清楚，推理规则不明确的问题，允许样品有较大的缺损、畸变，神经网络方法的缺点是其模型在不断丰富完善中，目前能识别的模式类还不够多，神经网络方法允许样品有较大的缺损和畸变，其运行速度快，自适应性能好，具有较高的分辨率。

神经网络的图像识别系统是神经网络模式识别系统的一种，原理是一致的。一般神经网络图像识别系统由预处理，特征提取和神经网络分类器组成。预处理就是将原始数据中的无用信息删除，平滑，二值化和进行幅度归一化等。

神经网络图像识别系统中的特征提取部分不一定存在，这样就分为两大类：①有特征提取部分的：这一类系统实际上是传统方法与神经网络方法技术的结合，这种方法可以充分利用人的经验来获取模式特征以及神经网络分类能力来识别目标图像。

特征提取必须能反应整个图像的特征。但它的抗干扰能力不如第2类。

②无特征提取部分的：省去特征抽取，整副图像直接作为神经网络的输入，这种方式下，系统的神经网络结构的复杂度大大增加了，输入模式维数的增加导致了网络规模的庞大。

此外，神经网络结构需要完全自己消除模式变形的影响。但是网络的抗干扰性能好，识别率高。当BP网用于分类时，首先要选择各类的样本进行训练，每类样本的个数要近似相等。

其原因在于一方面防止训练后网络对样本多的类别响应过于敏感，而对样本数少的类别不敏感。另一方面可以大幅度提高训练速度，避免网络陷入局部最小点。

由于BP网络不具有不变识别的能力，所以要使网络对模式的平移、旋转、伸缩具有不变性，要尽可能选择各种可能情况的样本。

例如要选择不同姿态、不同方位、不同角度、不同背景等有代表性的样本，这样可以保证网络有较高的识别率。

构造神经网络分类器首先要选择适当的网络结构：神经网络分类器的输入就是图像的特征向量；神经网络分类器的输出节点应该是类别数。隐层数要选好，每层神经元数要合适，目前有很多采用一层隐层的网络结构。

然后要选择适当的学习算法，这样才会有很好的识别效果。

在学习阶段应该用大量的样本进行训练学习，通过样本的大量学习对神经网络的各层网络的连接权值进行修正，使其对样本有正确的识别结果，这就像人记数字一样，网络中的神经元就像是人脑细胞，权值的改变就像是人脑细胞的相互作用的改变，神经网络在样本学习中就像人记数字一样，学习样本时的网络权值调整就相当于人记住各个数字的形象，网络权值就是网络记住的内容，网络学习阶段就像人由不认识数字到认识数字反复学习过程是一样的。

神经网络是按整个特征向量的整体来记忆图像的，只要大多数特征符合曾学习过的样本就可识别为同一类别，所以当样本存在较大噪声时神经网络分类器仍可正确识别。

在图像识别阶段，只要将图像的点阵向量作为神经网络分类器的输入，经过网络的计算，分类器的输出就是识别结果。五、仿真实验1、实验对象本实验用MATLAB完成了对神经网络的训练和图像识别模拟。

从实验数据库中选择0～9这十个数字的BMP格式的目标图像。图像大小为16×8像素，每个目标图像分别加10％、20％、30％、40％、50％大小的随机噪声，共产生60个图像样本。

将样本分为两个部分，一部分用于训练，另一部分用于测试。实验中用于训练的样本为40个，用于测试的样本为20个。随机噪声调用函数randn(m,n)产生。

2、网络结构本试验采用三层的BP网络，输入层神经元个数等于样本图像的象素个数16×8个。隐含层选24个神经元，这是在试验中试出的较理想的隐层结点数。

输出层神经元个数就是要识别的模式数目，此例中有10个模式，所以输出层神经元选择10个，10个神经元与10个模式一一对应。

3、基于MATLAB语言的网络训练与仿真建立并初始化网络% ================S1 = 24;% 隐层神经元数目S1 选为24[R,Q] = size(numdata);[S2,Q] = size(targets);F = numdata;P=double(F);net = newff(minmax(P),[S1 S2],{'logsig''logsig'},'traingda','learngdm')这里numdata为训练样本矩阵，大小为128×40，targets为对应的目标输出矩阵，大小为10×40。

newff(PR,[S1S2…SN],{TF1TF2…TFN}，BTF,BLF,PF)为MATLAB函数库中建立一个N层前向BP网络的函数，函数的自变量PR表示网络输入矢量取值范围的矩阵[Pminmax];S1~SN为各层神经元的个数；TF1~TFN用于指定各层神经元的传递函数；BTF用于指定网络的训练函数；BLF用于指定权值和阀值的学习函数；PF用于指定网络的性能函数，缺省值为‘mse’。

设置训练参数net.performFcn = 'sse'; %平方和误差性能函数 = 0.1; %平方和误差目标 = 20; %进程显示频率net.trainParam.epochs = 5000;%最大训练步数 = 0.95; %动量常数网络训练net=init(net);%初始化网络[net,tr] = train(net,P,T);％网络训练对训练好的网络进行仿真D=sim(net,P);A = sim(net,B);B为测试样本向量集,128×20的点阵。

D为网络对训练样本的识别结果，A为测试样本的网络识别结果。实验结果表明：网络对训练样本和对测试样本的识别率均为100％。如图为64579五个数字添加50%随机噪声后网络的识别结果。

六、总结从上述的试验中已经可以看出，采用神经网络识别是切实可行的，给出的例子只是简单的数字识别实验，要想在网络模式下识别复杂的目标图像则需要降低网络规模，增加识别能力，原理是一样的。

谷歌人工智能写作项目：神经网络伪原创

如何利用卷积神经网络提取图像特征

写作猫。

卷积神经网络有以下几种应用可供研究：1、基于卷积网络的形状识别物体的形状是人的视觉系统分析和识别物体的基础，几何形状是物体的本质特征的表现，并具有平移、缩放和旋转不变等特点，所以在模式识别领域，对于形状的分析和识别具有十分重要的意义，而二维图像作为三维图像的特例以及组成部分，因此二维图像的识别是三维图像识别的基础。

2、基于卷积网络的人脸检测卷积神经网络与传统的人脸检测方法不同，它是通过直接作用于输入样本，用样本来训练网络并最终实现检测任务的。

它是非参数型的人脸检测方法，可以省去传统方法中建模、参数估计以及参数检验、重建模型等的一系列复杂过程。本文针对图像中任意大小、位置、姿势、方向、肤色、面部表情和光照条件的人脸。

3、文字识别系统在经典的模式识别中，一般是事先提取特征。提取诸多特征后，要对这些特征进行相关性分析，找到最能代表字符的特征，去掉对分类无关和自相关的特征。

然而，这些特征的提取太过依赖人的经验和主观意识，提取到的特征的不同对分类性能影响很大，甚至提取的特征的顺序也会影响最后的分类性能。同时，图像预处理的好坏也会影响到提取的特征。

用卷积神经网络处理 “图” 结构数据应该怎么办

。

2、基于卷积网络的人脸检测卷积神经网络与传统的人脸检测方法不同，它是通过直接作用于输入样本，用样本来训练网络并最终实现检测任务的。

Python如何图像识别？

1.简介。图像处理是一门应用非常广的技术，而拥有非常丰富第三方扩展库的Python当然不会错过这一门盛宴。

PIL（PythonImagingLibrary）是Python中最常用的图像处理库，目前版本为1.1.7，我们可以在这里下载学习和查找资料。

Image类是PIL库中一个非常重要的类，通过这个类来创建实例可以有直接载入图像文件，读取处理过的图像和通过抓取的方法得到的图像这三种方法。2.使用。导入Image模块。

然后通过Image类中的open方法即可载入一个图像文件。如果载入文件失败，则会引起一个IOError；若无返回错误，则open函数返回一个Image对象。

现在，我们可以通过一些对象属性来检查文件内容，即：1>>>importImage2 >>>im=("j.jpg")3 >>>printim.format,,4JPEG(440,330)RGB这里有三个属性，我们逐一了解。

format:识别图像的源格式，如果该文件不是从文件中读取的，则被置为None值。size:返回的一个元组，有两个元素，其值为象素意义上的宽和高。

mode:RGB（truecolorimage），此外还有，L（luminance），CMTK（pre-pressimage）。

现在，我们可以使用一些在Image类中定义的方法来操作已读取的图像实例。比如，显示最新载入的图像：1>>>()2 >>>输出原图：3.函数概貌。

3.1 ReadingandWritingImages:open(infilename),save(outfilename)3.2 CuttingandPastingandMergingImages:crop():从图像中提取出某个矩形大小的图像。

它接收一个四元素的元组作为参数，各元素为（left,upper,right,lower），坐标系统的原点（0,0）是左上角。

paste():merge():1>>>box=(100,100,200,200)2 >>>region=(box)3 >>>()4 >>>region=region.transpose(Image.ROTATE_180)5 >>>()6 >>>im.paste(region,box)7 >>>()其效果图为：旋转一幅图片：1defroll(image,delta):2 "Rollanimagesideways"34 xsize,ysize=56 delta=delta%xsize7 ifdelta==0:returnimage89 part1=((0,0,delta,ysize))10 part2=((delta,0,xsize,ysize))11 image.paste(part2,(0,0,xsize-delta,ysize))12 image.paste(part1,(xsize-delta,0,xsize,ysize))1314 returnimage3.3 几何变换。

3.3.1 简单的几何变换。

1>>>out=im.resize((128,128)) #2 >>>out=im.rotate(45) #逆时针旋转45度角。

3 >>>out=im.transpose(Image.FLIP_LEFT_RIGHT) #左右对换。

4 >>>out=im.transpose(Image.FLIP_TOP_BOTTOM) #上下对换。

5 >>>out=im.transpose(Image.ROTATE_90) #旋转90度角。

6 >>>out=im.transpose(Image.ROTATE_180) #旋转180度角。

7>>>out=im.transpose(Image.ROTATE_270) #旋转270度角。

各个调整之后的图像为：图片1：图片2：图片3：图片4：3.3.2 色彩空间变换。convert():该函数可以用来将图像转换为不同色彩模式。3.3.3 图像增强。

Filters:在ImageFilter模块中可以使用filter函数来使用模块中一系列预定义的增强滤镜。

1>>>importImageFilter2>>>imfilter=im.filter(ImageFilter.DETAIL)3>>>()3.4 序列图像。

即我们常见到的动态图，最常见的后缀为.gif，另外还有FLI/FLC。PIL库对这种动画格式图也提供了一些基本的支持。当我们打开这类图像文件时，PIL自动载入图像的第一帧。

我们可以使用seek和tell方法在各帧之间移动。

1importImage2(1) #skiptothesecondframe34try:5 while1:6 (()+1)7 #dosomethingtoim8exceptEOFError:9 pass3.5 更多关于图像文件的读取。

最基本的方式：im=("filename")类文件读取：fp=open("filename","rb");im=(fp)字符串数据读取：importStringIO;im=(StringIO.StringIO(buffer))从归档文件读取：importTarIO;fp=TarIo.TarIO("","");im=(fp)基本的PIL目前就练习到这里。

其他函数的功能可点击这里进一步阅读。