当前位置: 首页 > news >正文

微调(二)

Selective类方法中的BitFit

它的核心思想是仅更新模型中的偏置项(bias terms)部分偏置项,从而实现参数的稀疏更新。这种方法在小到中等规模的训练数据上表现出色,有时甚至能够超越全模型微调的性能。对于BERT模型,BitFit只更新了模型参数量的0.08%到0.09%,但依然能够与全参数微调方法如Adapter和Diff-Pruning相媲美,甚至在某些任务上略胜一筹。

在实现上,BitFit主要关注一下几个方面的偏置参数:

值得注意的是,虽然只更新了模型的一小部分参数,但BitFit在不同任务上的表现仍然可以与全参数微调相媲美。此外,通过实验发现,仅更新与query相关的偏置和特征维度放大的FFN层(intermediate)的偏置参数,也能达到与全参数微调相近的效果。

在神经网络中,偏置项(Bias Terms)是一种加在网络层的输入或输出上的常数项,用于帮助模型学习数据中的非线性模式。偏置项对于模型能否成功学习复杂的函数映射至关重要。下面是偏置项在不同上下文中的详细解释:

1、单个神经元的偏置项:

在单个神经元或感知器中,偏置项通常表示为b,并与输入数据 x 相加后通过激活函数 f 来生成输出 a ,公式表示为:

a = f(w * x + b)

其中,w是权重,x是输入,b是偏置项。

2、多层感知器中的偏置项:

在多层感知器或更复杂的网络结构中,每个层级都可能有自己的偏置项。例如,在全连接层中,每一层的输出可能会加上一个偏置向量b,然后输入到下一层。

3、卷积神经网络中的偏置项:

在卷积神经网络(CNN)中,偏置项可能针对每个卷积核或每个特征图(feature map)进行添加。

4、Transformer中的偏置项:

在Transformer架构中,偏置项可能用于注意力机制(如查询Q,键K,值V的计算中)或前馈网络(feed-forward network)中。

5、Batch Normalization中的偏置项:

批归一化(Batch Normalization)在对每个小批量数据进行归一化后,也会使用偏置项和缩放因子来恢复数据的原始范围。

6、Layer Normalization中的偏置项:

层归一化(Layer Normalization)在对层的激活输出进行归一化后,也会添加偏置项和缩放因子。

偏置项的主要作用是提供一个平移参数,允许模型在特征空间中进行更灵活的拟合。例如,如果所有权重初始化为零,没有偏置项的话,无论输入数据如何变化,神经元的输出都将是相同的,这将导致模型无法学习到有用的表示。通过引入偏置项,每个神经元可以独立地调整其输出,使得模型能够更好地拟合数据。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Java与Python谁更适合后端开发?
  • 计算机网络-七层协议栈介绍
  • Qt pdf文件操作
  • 学习记录day18——数据结构 算法
  • Hadoop学习(三)
  • AI PC处理器架-低功耗、NPU算力、大模型
  • Java面试题--多线程
  • Java基础总结
  • html+css+js前端作业英雄联盟首页1个页面带js
  • 测试面试宝典(四十一)—— 接口自动化的优缺点
  • 关闭窗口工具类 - C#小函数类推荐
  • C++四种类型转换
  • 【课程总结】day19(中):Transformer架构及注意力机制了解
  • 测试类型分类
  • SQLite ORDER BY 语句
  • 【许晓笛】 EOS 智能合约案例解析(3)
  • 30秒的PHP代码片段(1)数组 - Array
  • Android框架之Volley
  • angular2开源库收集
  • axios请求、和返回数据拦截,统一请求报错提示_012
  • css布局,左右固定中间自适应实现
  • ES6, React, Redux, Webpack写的一个爬 GitHub 的网页
  • HashMap ConcurrentHashMap
  • Java面向对象及其三大特征
  • leetcode46 Permutation 排列组合
  • Vue 2.3、2.4 知识点小结
  • Vue.js源码(2):初探List Rendering
  • Web标准制定过程
  • 和 || 运算
  • 基于 Ueditor 的现代化编辑器 Neditor 1.5.4 发布
  • 学习JavaScript数据结构与算法 — 树
  • 优化 Vue 项目编译文件大小
  • ​二进制运算符:(与运算)、|(或运算)、~(取反运算)、^(异或运算)、位移运算符​
  • ​香农与信息论三大定律
  • #我与Java虚拟机的故事#连载02:“小蓝”陪伴的日日夜夜
  • $jQuery 重写Alert样式方法
  • (2)空速传感器
  • (3)选择元素——(14)接触DOM元素(Accessing DOM elements)
  • (39)STM32——FLASH闪存
  • (6) 深入探索Python-Pandas库的核心数据结构:DataFrame全面解析
  • (c语言)strcpy函数用法
  • (done) ROC曲线 和 AUC值 分别是什么?
  • (MATLAB)第五章-矩阵运算
  • (Oracle)SQL优化技巧(一):分页查询
  • (webRTC、RecordRTC):navigator.mediaDevices undefined
  • (附源码)springboot车辆管理系统 毕业设计 031034
  • (论文阅读11/100)Fast R-CNN
  • (心得)获取一个数二进制序列中所有的偶数位和奇数位, 分别输出二进制序列。
  • (一)appium-desktop定位元素原理
  • .NET 8.0 发布到 IIS
  • .net framework profiles /.net framework 配置
  • .net 打包工具_pyinstaller打包的exe太大?你需要站在巨人的肩膀上-VC++才是王道
  • .NET 中创建支持集合初始化器的类型
  • .net/c# memcached 获取所有缓存键(keys)
  • .NET/C# 使窗口永不激活(No Activate 永不获得焦点)