当前位置：首页 > news >正文

神经网络训练电脑配置,cpu可以训练神经网络吗

news 来源：原创 2024/5/17 20:22:08

神经网络参数如何确定

神经网络各个网络参数设定原则：①、网络节点网络输入层神经元节点数就是系统的特征因子(自变量)个数，输出层神经元节点数就是系统目标个数。隐层节点选按经验选取，一般设为输入层节点数的75%。

如果输入层有7个节点，输出层1个节点，那么隐含层可暂设为5个节点，即构成一个7-5-1BP神经网络模型。在系统训练时，实际还要对不同的隐层节点数4、5、6个分别进行比较，最后确定出最合理的网络结构。

②、初始权值的确定初始权值是不应完全相等的一组值。已经证明，即便确定存在一组互不相等的使系统误差更小的权值，如果所设Wji的的初始值彼此相等，它们将在学习过程中始终保持相等。

故而，在程序中，我们设计了一个随机发生器程序，产生一组一0.5~+0.5的随机数，作为网络的初始权值。

③、最小训练速率在经典的BP算法中，训练速率是由经验确定，训练速率越大，权重变化越大，收敛越快；但训练速率过大，会引起系统的振荡，因此，训练速率在不导致振荡前提下，越大越好。

因此，在DPS中，训练速率会自动调整，并尽可能取大一些的值，但用户可规定一个最小训练速率。该值一般取0.9。④、动态参数动态系数的选择也是经验性的，一般取0.6~0.8。

⑤、允许误差一般取0.001~0.00001，当2次迭代结果的误差小于该值时，系统结束迭代计算，给出结果。⑥、迭代次数一般取1000次。

由于神经网络计算并不能保证在各种参数配置下迭代结果收敛，当迭代结果不收敛时，允许最大的迭代次数。⑦、Sigmoid参数该参数调整神经元激励函数形式，一般取0.9~1.0之间。⑧、数据转换。

在DPS系统中，允许对输入层各个节点的数据进行转换，提供转换的方法有取对数、平方根转换和数据标准化转换。扩展资料：神经网络的研究内容相当广泛，反映了多学科交叉技术领域的特点。

主要的研究工作集中在以下几个方面：1.生物原型从生理学、心理学、解剖学、脑科学、病理学等方面研究神经细胞、神经网络、神经系统的生物原型结构及其功能机理。

2.建立模型根据生物原型的研究，建立神经元、神经网络的理论模型。其中包括概念模型、知识模型、物理化学模型、数学模型等。

3.算法在理论模型研究的基础上构作具体的神经网络模型，以实现计算机模拟或准备制作硬件，包括网络学习算法的研究。这方面的工作也称为技术模型研究。

神经网络用到的算法就是向量乘法，并且广泛采用符号函数及其各种逼近。并行、容错、可以硬件实现以及自我学习特性，是神经网络的几个基本优点，也是神经网络计算方法与传统方法的区别所在。

参考资料：百度百科-神经网络（通信定义）

谷歌人工智能写作项目：神经网络伪原创

深度学习对硬件的要求

之前热衷于学习理论知识，目前想跑代码了发现不知道从何下手，自己电脑上搭建的平台基本就是个摆设，因为跑不起来呀文案狗。今天我们就来看看想做深度学习应该怎么下手。

首先了解下基础知识：1、深度学习用cpu训练和用gpu训练的区别（1）CPU主要用于串行运算；而GPU则是大规模并行运算。由于深度学习中样本量巨大，参数量也很大，所以GPU的作用就是加速网络运算。

（2）CPU算神经网络也是可以的，算出来的神经网络放到实际应用中效果也很好，只不过速度会很慢罢了。而目前GPU运算主要集中在矩阵乘法和卷积上，其他的逻辑运算速度并没有CPU快。

目前来讲有三种训练模型的方式：1.自己配置一个“本地服务器”，俗称高配的电脑。这个选择一般是台式机，因为笔记本的“高配”实在是太昂贵了，同一个价格可以买到比笔记本好很多的配置。

如果是长期使用，需要长期从事深度学习领域的研究，这个选择还是比较好的，比较自由。①预算一万以内的机器学习台式机/主机配置：②从李飞飞的课程里，可以看到她的电脑配置，这个配置是机器学习的基本设置。

内存：4X8G显示卡：两个NVGTX1070硬盘：HDD一个，SSD两个③配置主机需要了解的参数（在上一篇博客中已经详细介绍了各个参数的含义）：GPU：一个好的GPU可以将你的训练时间从几周缩减成几天，所以选GPU一定要非常慎重。

可以参看GPU天梯榜，都是一些比较新的型号具有很强的性能。在英伟达产品系列中，有消费领域的GeForce系列，有专业绘图领域的Quadro系列，有高性能计算领域的Tesla系列，如何选择？

有论文研究，太高的精度对于深度学习的错误率是没有提升的，而且大部分的环境框架都只支持单精度，所以双精度浮点计算是不必要，Tesla系列都去掉了。

从显卡效能的指标看，CUDA核心数要多，GPU频率要快，显存要大，带宽要高。这样，最新TitanX算是价格便宜量又足的选择。CPU：总的来说，你需要选择一个好的GPU，一个较好的CPU。

作为一个高速的串行处理器，常用来作为“控制器”使用，用来发送和接收指令，解析指令等。

由于GPU内部结构的限制，使得它比较适合进行高速的并行运算，而并不适合进行快速的指令控制，而且许多的数据需要在GPU和CPU之间进行存取，这就需要用到CPU，因为这是它的强项。

内存条：主要进行CPU和外设之间的数据交换，它的存取速度要比硬盘快好几倍，但是价格比较昂贵，通常会和容量成正比。

内存大小最起码最起码最起码要大于你所选择的GPU的内存的大小（最好达到显存的二倍，当然有钱的话越大越好）。在深度学习中，会涉及到大量的数据交换操作（例如按batch读取数据）。

当然你也可以选择将数据存储在硬盘上，每次读取很小的batch块，这样你的训练周期就会非常长。

常用的方案是“选择一个较大的内存，每次从硬盘中读取几个batch的数据存放在内存中，然后进行数据处理”，这样可以保证数据不间断的传输，从而高效的完成数据处理的任务。

电源问题：一个显卡的功率接近300W，四显卡建议电源在1500W以上，为了以后扩展，可选择更大的电源。固态硬盘：作为一个“本地存储器”，主要用于存储各种数据。由于其速度较慢，价格自然也比较便宜。

建议你选择一个较大容量的硬盘，通常会选择1T/2T。一个好的方法是：“你可以利用上一些旧的硬盘，因为硬盘的扩展十分简单，这样可以节省一部分资金。”

用于神经网络计算的计算机需要怎样的配置

不是单机器配置的问题，主要看你的数据量和你打算干什么了，数据量不大并且要求实时性不高的话普通台式机就行。但是如果要求实时性强，什么CPU都有压力，应当使用GPU进行加速。

如果是数据量超大，可以考虑使用集群进行分布式运算。

深度学习用cpu训练和用gpu训练有什么区别

1、深度学习用cpu训练和用gpu训练的区别（1）CPU主要用于串行运算；而GPU则是大规模并行运算。由于深度学习中样本量巨大，参数量也很大，所以GPU的作用就是加速网络运算。

2、深度学习深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习是机器学习中一种基于对数据进行表征学习的方法。

观测值（例如一幅图像）可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。

使用神经网络训练，一个最大的问题就是训练速度的问题，特别是对于深度学习而言，过多的参数会消耗很多的时间，在神经网络训练过程中，运算最多的是关于矩阵的运算，这个时候就正好用到了GPU，GPU本来是用来处理图形的，但是因为其处理矩阵计算的高效性就运用到了深度学习之中。

为什么CPU需要设置随机数种子模型的训练结果将始终保持一致？

CPU没时每刻都在产生随机数种子这是谁说的？？？

CPU从来就不会产生随机数种子只不过是大部分的编程语言，会将CPU的时钟作为一个随机种子，所以你才每时每刻都可以获得一个不同的随机数所以，只有你在获得随机数的时候，才有种子的概念。

哪些参数指标对CPU来讲是最重要的??

CPU性能指标：1.主频主频也叫时钟频率，单位是MHz，用来表示CPU的运算速度。CPU的主频＝外频×倍频系数。

很多人认为主频就决定着CPU的运行速度，这不仅是个片面的，而且对于服务器来讲，这个认识也出现了偏差。

至今，没有一条确定的公式能够实现主频和实际的运算速度两者之间的数值关系，即使是两大处理器厂家Intel和AMD，在这点上也存在着很大的争议，我们从Intel的产品的发展趋势，可以看出Intel很注重加强自身主频的发展。

像其他的处理器厂家，有人曾经拿过一快1G的全美达来做比较，它的运行效率相当于2G的Intel处理器。

所以，CPU的主频与CPU实际的运算能力是没有直接关系的，主频表示在CPU内数字脉冲信号震荡的速度。

在Intel的处理器产品中，我们也可以看到这样的例子：1GHzItanium芯片能够表现得差不多跟2.66GHzXeon/Opteron一样快，或是1.5GHzItanium2大约跟4GHzXeon/Opteron一样快。

CPU的运算速度还要看CPU的流水线的各方面的性能指标。当然，主频和实际的运算速度是有关的，只能说主频仅仅是CPU性能表现的一个方面，而不代表CPU的整体性能。

2.外频外频是CPU的基准频率，单位也是MHz。CPU的外频决定着整块主板的运行速度。

说白了，在台式机中，我们所说的超频，都是超CPU的外频（当然一般情况下，CPU的倍频都是被锁住的）相信这点是很好理解的。但对于服务器CPU来讲，超频是绝对不允许的。

前面说到CPU决定着主板的运行速度，两者是同步运行的，如果把服务器CPU超频了，改变了外频，会产生异步运行，（台式机很多主板都支持异步运行）这样会造成整个服务器系统的不稳定。

目前的绝大部分电脑系统中外频也是内存与主板之间的同步运行的速度，在这种方式下，可以理解为CPU的外频直接与内存相连通，实现两者间的同步运行状态。

外频与前端总线(FSB)频率很容易被混为一谈，下面的前端总线介绍我们谈谈两者的区别。3.前端总线(FSB)频率前端总线(FSB)频率(即总线频率)是直接影响CPU与内存直接数据交换速度。

有一条公式可以计算，即数据带宽＝(总线频率×数据带宽)/8，数据传输最大带宽取决于所有同时传输的数据的宽度和传输频率。

比方，现在的支持64位的至强Nocona，前端总线是800MHz，按照公式，它的数据传输最大带宽是6.4GB/秒。

外频与前端总线(FSB)频率的区别：前端总线的速度指的是数据传输的速度，外频是CPU与主板之间同步运行的速度。

也就是说，100MHz外频特指数字脉冲信号在每秒钟震荡一千万次；而100MHz前端总线指的是每秒钟CPU可接受的数据传输量是100MHz×64bit÷8Byte/bit=800MB/s。

其实现在“HyperTransport”构架的出现，让这种实际意义上的前端总线(FSB)频率发生了变化。

之前我们知道IA-32架构必须有三大重要的构件：内存控制器Hub(MCH),I/O控制器Hub和PCIHub，像Intel很典型的芯片组Intel7501、Intel7505芯片组，为双至强处理器量身定做的，它们所包含的MCH为CPU提供了频率为533MHz的前端总线，配合DDR内存，前端总线带宽可达到4.3GB/秒。

但随着处理器性能不断提高同时给系统架构带来了很多问题。

而“HyperTransport”构架不但解决了问题，而且更有效地提高了总线带宽，比方AMDOpteron处理器，灵活的HyperTransportI/O总线体系结构让它整合了内存控制器，使处理器不通过系统总线传给芯片组而直接和内存交换数据。

这样的话，前端总线(FSB)频率在AMDOpteron处理器就不知道从何谈起了。

4、CPU的位和字长位：在数字电路和电脑技术中采用二进制，代码只有“0”和“1”，其中无论是“0”或是“1”在CPU中都是一“位”。

字长：电脑技术中对CPU在单位时间内(同一时间)能一次处理的二进制数的位数叫字长。所以能处理字长为8位数据的CPU通常就叫8位的CPU。

同理32位的CPU就能在单位时间内处理字长为32位的二进制数据。字节和字长的区别：由于常用的英文字符用8位二进制就可以表示，所以通常就将8位称为一个字节。

字长的长度是不固定的，对于不同的CPU、字长的长度也不一样。8位的CPU一次只能处理一个字节，而32位的CPU一次就能处理4个字节，同理字长为64位的CPU一次可以处理8个字节。

5.倍频系数倍频系数是指CPU主频与外频之间的相对比例关系。在相同的外频下，倍频越高CPU的频率也越高。但实际上，在相同外频的前提下，高倍频的CPU本身意义并不大。

这是因为CPU与系统之间数据传输速度是有限的，一味追求高倍频而得到高主频的CPU就会出现明显的“瓶颈”效应—CPU从系统中得到数据的极限速度不能够满足CPU运算的速度。

一般除了工程样版的Intel的CPU都是锁了倍频的，而AMD之前都没有锁。

6.缓存缓存大小也是CPU的重要指标之一，而且缓存的结构和大小对CPU速度的影响非常大，CPU内缓存的运行频率极高，一般是和处理器同频运作，工作效率远远大于系统内存和硬盘。

实际工作时，CPU往往需要重复读取同样的数据块，而缓存容量的增大，可以大幅度提升CPU内部读取数据的命中率，而不用再到内存或者硬盘上寻找，以此提高系统性能。

但是由于CPU芯片面积和成本的因素来考虑，缓存都很小。L1Cache(一级缓存)是CPU第一层高速缓存，分为数据缓存和指令缓存。

内置的L1高速缓存的容量和结构对CPU的性能影响较大，不过高速缓冲存储器均由静态RAM组成，结构较复杂，在CPU管芯面积不能太大的情况下，L1级高速缓存的容量不可能做得太大。

一般服务器CPU的L1缓存的容量通常在32—256KB。L2Cache(二级缓存)是CPU的第二层高速缓存，分内部和外部两种芯片。

内部的芯片二级缓存运行速度与主频相同，而外部的二级缓存则只有主频的一半。

L2高速缓存容量也会影响CPU的性能，原则是越大越好，现在家庭用CPU容量最大的是512KB，而服务器和工作站上用CPU的L2高速缓存更高达256-1MB，有的高达2MB或者3MB。

L3Cache(三级缓存)，分为两种，早期的是外置，现在的都是内置的。而它的实际作用即是，L3缓存的应用可以进一步降低内存延迟，同时提升大数据量计算时处理器的性能。

降低内存延迟和提升大数据量计算能力对游戏都很有帮助。而在服务器领域增加L3缓存在性能方面仍然有显著的提升。

比方具有较大L3缓存的配置利用物理内存会更有效，故它比较慢的磁盘I/O子系统可以处理更多的数据请求。具有较大L3缓存的处理器提供更有效的文件系统缓存行为及较短消息和处理器队列长度。

其实最早的L3缓存被应用在AMD发布的K6-III处理器上，当时的L3缓存受限于制造工艺，并没有被集成进芯片内部，而是集成在主板上。在只能够和系统总线频率同步的L3缓存同主内存其实差不了多少。

后来使用L3缓存的是英特尔为服务器市场所推出的Itanium处理器。接着就是P4EE和至强MP。

Intel还打算推出一款9MBL3缓存的Itanium2处理器，和以后24MBL3缓存的双核心Itanium2处理器。

但基本上L3缓存对处理器的性能提高显得不是很重要，比方配备1MBL3缓存的XeonMP处理器却仍然不是Opteron的对手，由此可见前端总线的增加，要比缓存增加带来更有效的性能提升。

7.CPU扩展指令集CPU依靠指令来计算和控制系统，每款CPU在设计时就规定了一系列与其硬件电路相配合的指令系统。指令的强弱也是CPU的重要指标，指令集是提高微处理器效率的最有效工具之一。

从现阶段的主流体系结构讲，指令集可分为复杂指令集和精简指令集两部分，而从具体运用看，如Intel的MMX（MultiMediaExtended）、SSE、SSE2（Streaming-Singleinstructionmultipledata-Extensions2）、SEE3和AMD的3DNow!等都是CPU的扩展指令集，分别增强了CPU的多媒体、图形图象和Internet等的处理能力。

我们通常会把CPU的扩展指令集称为"CPU的指令集"。SSE3指令集也是目前规模最小的指令集，此前MMX包含有57条命令，SSE包含有50条命令，SSE2包含有144条命令，SSE3包含有13条命令。

目前SSE3也是最先进的指令集，英特尔Prescott处理器已经支持SSE3指令集，AMD会在未来双核心处理器当中加入对SSE3指令集的支持，全美达的处理器也将支持这一指令集。

8.CPU内核和I/O工作电压从586CPU开始，CPU的工作电压分为内核电压和I/O电压两种，通常CPU的核心电压小于等于I/O电压。

其中内核电压的大小是根据CPU的生产工艺而定，一般制作工艺越小，内核工作电压越低；I/O电压一般都在1.6~5V。低电压能解决耗电过大和发热过高的问题。

9.制造工艺制造工艺的微米是指IC内电路与电路之间的距离。制造工艺的趋势是向密集度愈高的方向发展。密度愈高的IC电路设计，意味着在同样大小面积的IC中，可以拥有密度更高、功能更复杂的电路设计。

现在主要的180nm、130nm、90nm。最近官方已经表示有65nm的制造工艺了。

10.指令集（1）CISC指令集CISC指令集，也称为复杂指令集，英文名是CISC，（ComplexInstructionSetComputer的缩写）。

在CISC微处理器中，程序的各条指令是按顺序串行执行的，每条指令中的各个操作也是按顺序串行执行的。顺序执行的优点是控制简单，但计算机各部分的利用率不高，执行速度慢。

其实它是英特尔生产的x86系列（也就是IA-32架构）CPU及其兼容CPU，如AMD、VIA的。即使是现在新起的X86-64（也被成AMD64）都是属于CISC的范畴。

要知道什么是指令集还要从当今的X86架构的CPU说起。

X86指令集是Intel为其第一块16位CPU(i8086)专门开发的，IBM1981年推出的世界第一台PC机中的CPU—i8088(i8086简化版)使用的也是X86指令，同时电脑中为提高浮点数据处理能力而增加了X87芯片，以后就将X86指令集和X87指令集统称为X86指令集。

虽然随着CPU技术的不断发展，Intel陆续研制出更新型的i80386、i80486直到过去的PII至强、PIII至强、Pentium3，最后到今天的Pentium4系列、至强（不包括至强Nocona），但为了保证电脑能继续运行以往开发的各类应用程序以保护和继承丰富的软件资源，所以Intel公司所生产的所有CPU仍然继续使用X86指令集，所以它的CPU仍属于X86系列。

由于IntelX86系列及其兼容CPU（如AMDAthlonMP、）都使用X86指令集，所以就形成了今天庞大的X86系列及兼容CPU阵容。

x86CPU目前主要有intel的服务器CPU和AMD的服务器CPU两类。

（2）RISC指令集RISC是英文“ReducedInstructionSetComputing”的缩写，中文意思是“精简指令集”。

它是在CISC指令系统基础上发展起来的，有人对CISC机进行测试表明，各种指令的使用频度相当悬殊，最常使用的是一些比较简单的指令，它们仅占指令总数的20％，但在程序中出现的频度却占80％。

复杂的指令系统必然增加微处理器的复杂性，使处理器的研制时间长，成本高。并且复杂指令需要复杂的操作，必然会降低计算机的速度。

基于上述原因，20世纪80年代RISC型CPU诞生了，相对于CISC型CPU,RISC型CPU不仅精简了指令系统，还采用了一种叫做“超标量和超流水线结构”，大大增加了并行处理能力。

RISC指令集是高性能CPU的发展方向。它与传统的CISC(复杂指令集)相对。相比而言，RISC的指令格式统一，种类比较少，寻址方式也比复杂指令集少。当然处理速度就提高很多了。

目前在中高档服务器中普遍采用这一指令系统的CPU，特别是高档服务器全都采用RISC指令系统的CPU。RISC指令系统更加适合高档服务器的操作系统UNIX，现在Linux也属于类似UNIX的操作系统。

RISC型CPU与Intel和AMD的CPU在软件和硬件上都不兼容。

目前，在中高档服务器中采用RISC指令的CPU主要有以下几类：PowerPC处理器、SPARC处理器、PA-RISC处理器、MIPS处理器、Alpha处理器。

（3）IA-64EPIC（ExplicitlyParallelInstructionComputers，精确并行指令计算机）是否是RISC和CISC体系的继承者的争论已经有很多，单以EPIC体系来说，它更像Intel的处理器迈向RISC体系的重要步骤。

从理论上说，EPIC体系设计的CPU，在相同的主机配置下，处理Windows的应用软件比基于Unix下的应用软件要好得多。

Intel采用EPIC技术的服务器CPU是安腾Itanium（开发代号即Merced）。它是64位处理器，也是IA－64系列中的第一款。

微软也已开发了代号为Win64的操作系统，在软件上加以支持。

在Intel采用了X86指令集之后，它又转而寻求更先进的64-bit微处理器，Intel这样做的原因是，它们想摆脱容量巨大的x86架构,从而引入精力充沛而又功能强大的指令集，于是采用EPIC指令集的IA-64架构便诞生了。

IA-64在很多方面来说，都比x86有了长足的进步。

突破了传统IA32架构的许多限制，在数据的处理能力，系统的稳定性、安全性、可用性、可观理性等方面获得了突破性的提高IA-64微处理器最大的缺陷是它们缺乏与x86的兼容，而Intel为了IA-64处理器能够更好地运行两个朝代的软件，它在IA-64处理器上（Itanium、Itanium2……)引入了x86-to-IA-64的解码器，这样就能够把x86指令翻译为IA-64指令。

这个解码器并不是最有效率的解码器，也不是运行x86代码的最好途径（最好的途径是直接在x86处理器上运行x86代码），因此Itanium和Itanium2在运行x86应用程序时候的性能非常糟糕。

这也成为X86-64产生的根本原因。（4）X86-64（AMD64/EM64T）AMD公司设计，可以在同一时间内处理64位的整数运算，并兼容于X86-32架构。

其中支持64位逻辑定址，同时提供转换为32位定址选项；但数据操作指令默认为32位和8位，提供转换成64位和16位的选项；支持常规用途寄存器，如果是32位运算操作，就要将结果扩展成完整的64位。

这样，指令中有“直接执行”和“转换执行”的区别，其指令字段是8位或32位，可以避免字段过长。

x86-64（也叫AMD64）的产生也并非空穴来风，x86处理器的32bit寻址空间限制在4GB内存，而IA-64的处理器又不能兼容x86。

AMD充分考虑顾客的需求，加强x86指令集的功能，使这套指令集可同时支持64位的运算模式，因此AMD把它们的结构称之为x86-64。

在技术上AMD在x86-64架构中为了进行64位运算，AMD为其引入了新增了R8-R15通用寄存器作为原有X86处理器寄存器的扩充，但在而在32位环境下并不完全使用到这些寄存器。

原来的寄存器诸如EAX、EBX也由32位扩张至64位。在SSE单元中新加入了8个新寄存器以提供对SSE2的支持。寄存器数量的增加将带来性能的提升。

与此同时，为了同时支持32和64位代码及寄存器，x86-64架构允许处理器工作在以下两种模式：LongMode(长模式)和LegacyMode(遗传模式)，Long模式又分为两种子模式(64bit模式和Compatibilitymode兼容模式)。

该标准已经被引进在AMD服务器处理器中的Opteron处理器。

而今年也推出了支持64位的EM64T技术，再还没被正式命为EM64T之前是IA32E，这是英特尔64位扩展技术的名字,用来区别X86指令集。

Intel的EM64T支持64位sub-mode，和AMD的X86-64技术类似，采用64位的线性平面寻址，加入8个新的通用寄存器（GPRs），还增加8个寄存器支持SSE指令。