当前位置: 首页 > news >正文

论文阅读——RoBERTa

一、LM效果好但是各种方法之间细致比较有挑战性,因为训练耗费资源多、并且在私有的不同大小的数据集上训练,不同超参数选择对结果影响很大。使用复制研究的方法对BERT预训练的超参数和数据集的影响细致研究,发现BERT训练不够,提出训练BERT的方法RoBERTa。

RoBERTa方法:

1、训练更长时间、数据集更大

2、移除NSP任务

3、在更长的序列上训练:We train only with full-length sequences.

4、动态mask

RoBERTa is trained with dynamic masking, FULL-SENTENCES without NSP loss, large mini-batches and a larger byte-level BPE.

BPE:

单词级和字符级混合表示。Byte-Pair Encoding (BPE)  is a hybrid between character- and word-level representations.

BPE依赖于通过对训练语料库进行统计分析来提取的子词单元,而不是全词。

BPE词汇表的大小通常从10K-100K子字单元。Radford等介绍了BPE的一种巧妙实现,该实现使用字节而不是单代码字符作为基本子字单元。使用字节使学习一个中等大小(50千个单位)的子单词词汇成为可能,它仍然可以对任何输入文本进行编码,而不引入任何“未知”标记。

最初的BERT实现使用大小为30K的字符级BPE词汇表,该词汇表是在使用启发式标记化规则对输入进行预处理后学习的。RoBERTa使用包含50K子词单元的较大字节级BPE词汇表来训练BERT,而无需对输入进行任何额外的预处理或标记化。这分别为BERTBASE和BERTLARGE增加了约15M和20M的额外参数。

二、RoBERTa预训练数据:

BOOKCORPUS plus English WIKIPEDIA.(16G,BERT used)

CC-NEWS  collected from the English portion of the CommonCrawl News dataset(76GB after filtering)

OPENWEBTEXT(38G)

STORIES(31G)

三、RoBERTa下游任务微调数据

GLUE

SQuAD: V1.1 and V2.0

RACE

相关文章:

  • Oracle数据库设置归档模式(超级简单)
  • 自动驾驶之—2D到3D升维
  • Python环境下LaTeX数学公式转图像方案调研与探讨
  • Golang Struct 继承的深入讨论和细节
  • ETCD备份与恢复
  • c# sqlite 修改字段类型
  • ssm164学院学生论坛的设计与实现+vue
  • GnuTLS recv error (-110): The TLS connection was non-properly terminated
  • leetCode 229. 多数元素 II + 摩尔投票法 + 进阶 + 优化空间
  • LeetCode刷题:27. 移除元素
  • uniapp把文件中的内复制到另一个文件中
  • RTCM数据解码
  • C# Winform编程(9)网络编程
  • 基于图像识别的自动驾驶汽车障碍物检测与避障算法研究
  • 如何批量给视频添加logo水印?
  • 「译」Node.js Streams 基础
  • CSS中外联样式表代表的含义
  • C学习-枚举(九)
  • MyEclipse 8.0 GA 搭建 Struts2 + Spring2 + Hibernate3 (测试)
  • php面试题 汇集2
  • Sublime Text 2/3 绑定Eclipse快捷键
  • Traffic-Sign Detection and Classification in the Wild 论文笔记
  • V4L2视频输入框架概述
  • 关于extract.autodesk.io的一些说明
  • 基于axios的vue插件,让http请求更简单
  • 每天10道Java面试题,跟我走,offer有!
  • 三栏布局总结
  • 数据可视化之下发图实践
  • ​ 全球云科技基础设施:亚马逊云科技的海外服务器网络如何演进
  • ​你们这样子,耽误我的工作进度怎么办?
  • (1)Android开发优化---------UI优化
  • (145)光线追踪距离场柔和阴影
  • (2)STL算法之元素计数
  • (6)设计一个TimeMap
  • (附源码)计算机毕业设计SSM教师教学质量评价系统
  • (接口封装)
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理 第13章 项目资源管理(七)
  • (四)TensorRT | 基于 GPU 端的 Python 推理
  • (学习日记)2024.03.25:UCOSIII第二十二节:系统启动流程详解
  • (终章)[图像识别]13.OpenCV案例 自定义训练集分类器物体检测
  • .L0CK3D来袭:如何保护您的数据免受致命攻击
  • .NET core 自定义过滤器 Filter 实现webapi RestFul 统一接口数据返回格式
  • .NET/C# 使用 SpanT 为字符串处理提升性能
  • .NET6使用MiniExcel根据数据源横向导出头部标题及数据
  • .w文件怎么转成html文件,使用pandoc进行Word与Markdown文件转化
  • @Valid和@NotNull字段校验使用
  • @vue/cli脚手架
  • [Android]一个简单使用Handler做Timer的例子
  • [BZOJ3223]文艺平衡树
  • [BZOJ5125]小Q的书架(决策单调性+分治DP+树状数组)
  • [c#基础]值类型和引用类型的Equals,==的区别
  • [C++提高编程](三):STL初识
  • [Grafana]ES数据源Alert告警发送
  • [iOS]iOS获取设备信息经常用法
  • [J2ME]如何替换Google Map静态地图自带的Marker