当前位置: 首页 > news >正文

论文阅读——ELECTRA

论文下载:https://openreview.net/pdf?id=r1xMH1BtvB

另一篇分析文章:ELECTRA 详解 - 知乎

一、概述

对BERT的token mask 做了改进。结合了GAN生成对抗模型的思路,但是和GAN不同。

不是对选择的token直接用mask替代,而是替换为一个生成器网络产生的token。

然后训练模型时并不是只被破坏的token,而是训练一个辨别模型来预测这些被破坏的输入的每一个token是否是被生成模型生成的样本替代的。因为将GANs应用于文本很困难,所以生成损坏token的生成器是以最大似然进行训练的。

小generator和大discriminator共同训练,但判别器的梯度不会传给生成器

fine-tuning 时丢弃generator,只使用discriminator

二、网络结构和训练

1、模型训练两个网络G和D。

        G:给定位置t,将该位置token替换为mask,输入到G,G输出一个概率,结合softmax层,来产生mask位置的xt,从而G产生损坏的输入。输出只在mask的token中计算分数,不是所有的token。

        D:给定位置t,D预测xt是否是真的。输出只在mask的token中预测是不是真的,不是所有的。

        对于给定一个随机位置序列,原始输入对应位置替换为[MASK] token,输入G,G学习恢复原始序列。D来分辨哪些token是被生成器产生的样本替换的。

文本损坏过程描述为:

2、损失函数为:

MLM损失的计算只计算m个,即m个被masked tokens

Disc损失 t的取值到 1..n,每个token都会更新参数

        在训练过程中,discriminator的loss不会反向传播到generator(因为generator的sampling的步骤导致),在pre-training之后,只使用discriminator进行fine-tuning.

相关文章:

  • 一台服务器最大能支持多少条 TCP 连接
  • 9.Vue2-监听属性的用法
  • 地面文物古迹保护方案,用科技为文物古迹撑起“智慧伞”
  • 常见MySQL数据库无法启动的解决方案
  • 使用Ubuntu虚拟机离线部署RKE2高可用集群
  • 汇编运算符和表达式
  • 如何将Mysql数据库的表导出并导入到另外的架构
  • 单例模式python实现
  • Linux CentOS 8(firewalld的配置与管理)
  • vue如何使用路由拦截器
  • centos格式化硬盘/u盘的分区为NTFS格式
  • 【Linux】虚拟机安装Linux、客户端工具,MobaXterm的使用,Linux常用命令
  • centos7 install postgres-15
  • Day13力扣打卡
  • 如何在Puppeteer中设置User-Agent来绕过京东的反爬虫机制?
  • CSS盒模型深入
  • Git 使用集
  • java8 Stream Pipelines 浅析
  • JavaScript服务器推送技术之 WebSocket
  • nginx 负载服务器优化
  • sublime配置文件
  • VuePress 静态网站生成
  • 构建工具 - 收藏集 - 掘金
  • 关键词挖掘技术哪家强(一)基于node.js技术开发一个关键字查询工具
  • 使用common-codec进行md5加密
  • 一起来学SpringBoot | 第三篇:SpringBoot日志配置
  • 原生Ajax
  • 源码安装memcached和php memcache扩展
  • 函数计算新功能-----支持C#函数
  • 数据库巡检项
  • ​软考-高级-系统架构设计师教程(清华第2版)【第12章 信息系统架构设计理论与实践(P420~465)-思维导图】​
  • (16)UiBot:智能化软件机器人(以头歌抓取课程数据为例)
  • (173)FPGA约束:单周期时序分析或默认时序分析
  • (6)【Python/机器学习/深度学习】Machine-Learning模型与算法应用—使用Adaboost建模及工作环境下的数据分析整理
  • (delphi11最新学习资料) Object Pascal 学习笔记---第8章第5节(封闭类和Final方法)
  • (python)数据结构---字典
  • (八)Flask之app.route装饰器函数的参数
  • (二)学习JVM —— 垃圾回收机制
  • (七)Java对象在Hibernate持久化层的状态
  • (转)机器学习的数学基础(1)--Dirichlet分布
  • (转)可以带来幸福的一本书
  • (转载)CentOS查看系统信息|CentOS查看命令
  • .Net IE10 _doPostBack 未定义
  • .NET 材料检测系统崩溃分析
  • .NET 中 GetHashCode 的哈希值有多大概率会相同(哈希碰撞)
  • @JoinTable会自动删除关联表的数据
  • @ResponseBody
  • []AT 指令 收发短信和GPRS上网 SIM508/548
  • [23] GaussianAvatars: Photorealistic Head Avatars with Rigged 3D Gaussians
  • [cocos creator]EditBox,editing-return事件,清空输入框
  • [Codeforces] number theory (R1600) Part.11
  • [DAX] MAX函数 | MAXX函数
  • [docker] Docker的数据卷、数据卷容器,容器互联
  • [Flutter]打包IPA
  • [FZSZOJ 1223] 上海红茶馆