当前位置: 首页 > news >正文

Re54:读论文 How Context Affects Language Models‘ Factual Predictions

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文名称:How Context Affects Language Models’ Factual Predictions

ArXiv网址:https://arxiv.org/abs/2005.04611

2020年AKBC论文,作者来自脸书和UCL。

本文主要关注zero-shot cloze-style question answering任务,使用LM+无监督检索,考察需要检索出什么样的上下文。

用DrQA检索器(TF-IDF检索维基百科)检索的结果,LM在QA上的指标就能和无监督场景相媲美。

open-domain QA的传统做法是retriever+reader(生成回答)

文章目录

  • 1. 数据集
  • 2. LM
  • 3. baseline
  • 4. 上下文设置
  • 5. 主实验结果

1. 数据集

在这里插入图片描述

2. LM

BERT
RoBERTa(削减了LAMA数据集以使其全部在RoBERTa的词表中)

3. baseline

DrQA:TF-IDF检索维基百科→抽取答案
将完形填空格式问题改成QA对:"X was born in [Mask]" to "Where was X born?"

4. 上下文设置

在BERT中用不同的segment embeddings区分问题(0)和上下文(1),中间再加个[SEP]
RoBERTa用EOS
后面的实验证明这个操作能提升效果。这可能是因为利用了BERT的NSP任务。

限长512

  1. oracle上下文:Wikipedia snippet

Wikipedia Snippet 是从 Wikipedia 页面上提取的一小段文本,通常用于快速展示相关条目的主要内容或概述。这种摘要可以帮助用户快速了解某个主题的核心信息,无需阅读整个条目。在搜索引擎结果中,Wikipedia Snippet 常常出现,以便用户在点击进入 Wikipedia 网站之前,就能获得关键信息。例如,如果你搜索一个历史人物、科学概念或者任何其他主题,搜索引擎可能会显示来自 Wikipedia 的简短摘要,这就是所谓的 “Snippet”。

  1. 相关上下文:检索或生成
  2. 对抗上下文:信息不足版(从同关系别的问题的oracle上下文中随机抽取)

5. 主实验结果

在这里插入图片描述

在这里插入图片描述
a:结果token经常不出现在检索上下文中
b:结果token是否出现在上下文中,如何影响模型预测结果。确实影响

每种上下文相比无上下文的改变量,是否加separation的效果对比:
在这里插入图片描述

证明NSP起作用:
不同方案在不同数据集上的NSP率
在这里插入图片描述

LM概率的变化与NSP概率的关系
在这里插入图片描述
↑这个图的纵坐标差别这么大还画成这样,感觉不好。虽然我知道是为了表现趋势相似,但是纵坐标完全不在一个量级上啊!

案例分析:
在这里插入图片描述

相关文章:

  • CSS:浏览器设置placeholder样式 / 微信小程序设置placeholder样式
  • Feign接口请求返回异常 no suitable HttpMessageConvert found for response type
  • 网络安全(黑客技术)—0基础小白自学
  • 系列六、Spring整合单元测试
  • Pycharm创建项目新环境,安装Pytorch
  • java springboot测试类虚拟MVC环境 匹配返回值与预期内容是否相同 (JSON数据格式) 版
  • HCIA题目解析(1)
  • element-vue实现网页锁屏功能
  • webshell之Laravel和yii
  • 2023.11.25更新关于mac开发APP(flutter)的笔记与整理(实机开发一)
  • 关于easy-es的聚合问题
  • AJAX技术-04-- 跨域说明
  • 【nlp】3.3 Transformer论文复现:2. 编码器部分(掩码张量、多头注意力机制、前馈全连接层)
  • 无需API开发,有赞小程序集成广告推广系统,提升品牌曝光
  • 堆和栈的区别 重点来说一下堆和栈;堆与栈之间的联系
  • 【Leetcode】101. 对称二叉树
  • 分享一款快速APP功能测试工具
  • 【Under-the-hood-ReactJS-Part0】React源码解读
  • 【编码】-360实习笔试编程题(二)-2016.03.29
  • CentOS 7 防火墙操作
  • Debian下无root权限使用Python访问Oracle
  • Java基本数据类型之Number
  • Java小白进阶笔记(3)-初级面向对象
  • jQuery(一)
  • js 实现textarea输入字数提示
  • Js基础知识(四) - js运行原理与机制
  • magento 货币换算
  • mysql中InnoDB引擎中页的概念
  • SQLServer之创建显式事务
  • Sublime text 3 3103 注册码
  • 编写高质量JavaScript代码之并发
  • 动态魔术使用DBMS_SQL
  • 官方新出的 Kotlin 扩展库 KTX,到底帮你干了什么?
  • 聊聊sentinel的DegradeSlot
  • 模型微调
  • 前端每日实战:61# 视频演示如何用纯 CSS 创作一只咖啡壶
  • 如何优雅地使用 Sublime Text
  • 如何抓住下一波零售风口?看RPA玩转零售自动化
  • 深入浅出Node.js
  • 深入体验bash on windows,在windows上搭建原生的linux开发环境,酷!
  • 问:在指定的JSON数据中(最外层是数组)根据指定条件拿到匹配到的结果
  • shell使用lftp连接ftp和sftp,并可以指定私钥
  • 继 XDL 之后,阿里妈妈开源大规模分布式图表征学习框架 Euler ...
  • ​水经微图Web1.5.0版即将上线
  • ​总结MySQL 的一些知识点:MySQL 选择数据库​
  • (Matalb时序预测)PSO-BP粒子群算法优化BP神经网络的多维时序回归预测
  • (附源码)spring boot建达集团公司平台 毕业设计 141538
  • (附源码)springboot课程在线考试系统 毕业设计 655127
  • (附源码)ssm高校志愿者服务系统 毕业设计 011648
  • (区间dp) (经典例题) 石子合并
  • (十三)Flask之特殊装饰器详解
  • (算法)求1到1亿间的质数或素数
  • (学习日记)2024.02.29:UCOSIII第二节
  • .CSS-hover 的解释
  • .net core 源码_ASP.NET Core之Identity源码学习