当前位置: 首页 > news >正文

NUS神经网络生成我感觉解读过于夸大了

网上对其解读有点过了,只是合成了最后标准化层的参数,或者是更多的其他层参数。而不是网络结构。对于新任务下的网络结构以及参数如何生成,应该是做不到的,论文意义有限。

论文片段:我们提出了神经网络扩散(p-diff),其目的是从随机噪声中生成高性能的参数。如图2所示,我们的方法由两个过程组成,即参数自动编码器和生成器。给定一组训练过的高性能模型,我们首先选择这些参数中的一个子集,并将它们压平为一维向量。随后,我们引入了一个编码器,从这些向量中提取潜在表示,并伴随着一个解码器,负责从潜在表示中重建参数。然后,训练一个标准的潜在扩散模型,从随机噪声中合成潜在表示。经过训练后,我们利用p-diff通过以下链生成新的参数:随机噪声→反向处理→训练的解码器→生成的参数。

图2 

1、什么是参数中的子集呢?如果是压缩成一维向量后再做编码解码训练的,那么解码后的依旧为一维向量,又如何恢复为特定的参数和参数值呢?

论文片段:训练autoencoder decoder。我们对预训练模型的参数子集进行了微调,并将微调后的参数密集地保存为训练样本。然后,我们将这些参数S压扁为一维向量V = [v1,……,vk,……,vK],其中V∈R (K×D),D是子集参数的大小。然后,训练一个自动编码器来重建这些参数V。我们默认使用一个自动编码器和一个4层编码器和解码器。与正常的自动编码器训练相同,我们将V‘和V之间的均方误差(MSE)损失最小化如下

其中v‘k是第k个模型的重构参数。

论文片段:直接将随机噪声输入反向过程和经过训练的解码器,以生成一组新的高性能参数。这些生成的参数与剩余的模型参数连接起来,形成新的模型进行评估。神经网络参数和图像像素在几个关键方面表现出显著的差异,包括数据类型、维度、范围和物理解释。与图像不同的是,神经网络参数大多没有空间相关性,因此我们在参数自编码器和参数生成过程中,用一维卷积代替二维卷积。

论文片段:通过在潜在扩散模型和训练解码器中加入随机噪声,合成了100个新参数。然后将这些合成参数与上述固定参数连接起来,形成我们生成的模型。从这些生成的模型中,我们选择了在训练集上表现最好的模型。

从以上内容可以看出,模型中选取部分参数(参数子集)作为训练样本,K为训练样本数(不同模型)。但没有讲如何恢复100个参数的细节。

2、在有限的训练样本下训练了这个模型,其意义在哪里?  模型和图片不同,应该是不具备迁移效果的,更何况这些模型根据任务的不同,不同层的参数也有区别。给你一个新模型结构,生成的参数有意义吗?

论文片段:应用p-diff的位置。我们默认是合成最后两个标准化层的参数。为了研究p-diff在其他归一化层深度上的有效性,我们还探讨了合成其他浅层参数的性能。为了保持相同数量的BN参数,我们对三组BN层实现了我们的方法,它们是在不同深度的层之间。如标签页中所示。2(b),我们通过经验发现,我们的方法在所有BN层设置的深度上都比原始模型获得了更好的性能(最佳精度)。另一个发现是,合成深层比生成浅层可以获得更好的精度。这是因为生成浅层参数比生成深层参数更容易在正向传播过程中积累误差

所以,网上对其解读有点过了,知识合成了最后标准化层的参数,或者是更多的其他层参数。而不是网络结构。

相关文章:

  • Git 报错:unable to update local ref
  • 【Vue】组件通信组件通信
  • 树结构数据
  • 2步破解官方sublime4
  • CSS 入门手册(一)
  • 【Python】Ubuntu创建虚拟环境运行Python
  • java面试题之mybatis篇
  • 学习pybind11:Hello World例子
  • Linux学习第二天(yum、vim工具)
  • 自定义焊件轮廓库的方法
  • FFMPEG 推流至 NGINX-RTMP 服务
  • React PureComponent 和 React.memo()区别
  • 各平台,各语言基础数据类型占用字节比较
  • 数字人的未来:数字人对话系统 Linly-Talker + 克隆语音 GPT-SoVITS
  • Centos7下安装ruby2.7.8环境、WPScan的安装及使用介绍
  • [rust! #004] [译] Rust 的内置 Traits, 使用场景, 方式, 和原因
  • [译]CSS 居中(Center)方法大合集
  • Date型的使用
  • Docker容器管理
  • ES6 ...操作符
  • ES6 学习笔记(一)let,const和解构赋值
  • EventListener原理
  • java2019面试题北京
  • MyEclipse 8.0 GA 搭建 Struts2 + Spring2 + Hibernate3 (测试)
  • NSTimer学习笔记
  • React 快速上手 - 06 容器组件、展示组件、操作组件
  • Spring Cloud(3) - 服务治理: Spring Cloud Eureka
  • tweak 支持第三方库
  • Xmanager 远程桌面 CentOS 7
  • XML已死 ?
  • 道格拉斯-普克 抽稀算法 附javascript实现
  • 动态规划入门(以爬楼梯为例)
  • 分布式任务队列Celery
  • 欢迎参加第二届中国游戏开发者大会
  • 前嗅ForeSpider采集配置界面介绍
  • 算法---两个栈实现一个队列
  • 为什么要用IPython/Jupyter?
  • 《码出高效》学习笔记与书中错误记录
  • # 透过事物看本质的能力怎么培养?
  • #中的引用型是什么意识_Java中四种引用有什么区别以及应用场景
  • $.each()与$(selector).each()
  • (007)XHTML文档之标题——h1~h6
  • (C语言)字符分类函数
  • (PHP)设置修改 Apache 文件根目录 (Document Root)(转帖)
  • (zhuan) 一些RL的文献(及笔记)
  • (附源码)springboot码头作业管理系统 毕业设计 341654
  • (企业 / 公司项目)前端使用pingyin-pro将汉字转成拼音
  • (五)Python 垃圾回收机制
  • (学习日记)2024.04.04:UCOSIII第三十二节:计数信号量实验
  • (转)Linux整合apache和tomcat构建Web服务器
  • (转)VC++中ondraw在什么时候调用的
  • (转)项目管理杂谈-我所期望的新人
  • (转)重识new
  • ... fatal error LINK1120:1个无法解析的外部命令 的解决办法
  • .NET CF命令行调试器MDbg入门(一)