当前位置: 首页 > news >正文

Re50:读论文 Large Language Models Struggle to Learn Long-Tail Knowledge

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文名称:Large Language Models Struggle to Learn Long-Tail Knowledge

ArXiv网址:https://arxiv.org/abs/2211.08411

官方GitHub项目(代码和实体):https://github.com/nkandpa2/long_tail_knowledge

本文是2023年ICML论文,主要关注LLM无法记忆长尾知识的问题。
检测方式是让LLM基于事实回答问题(4-shot closed-book QA evaluations),看准确率与预训练语料中问题相关文档数的关系。文档中包含问题里的实体对,就算相关文档。
增大模型确实能缓解长尾问题,但是要求规模指数级提升才能匹配数据集出现频率的一点点提升。还是用检索增强的方式比较好。但是检索系统的方法本身也需要有相关文档才行。

预训练语料(用于链接实体和找相关文档):ROOTS, The Pile, C4, OpenWebText, and Wikipedia
(话说本文提到没有研究跨语言知识。我感觉这一点也挺值得研究的)

QA数据集:Natural Questions & TriviaQA

模型:
Transformer decoder-only LMs:
GPT-Neo
BLOOM-176B BLOOM: A 176B-Parameter Open-Access Multilingual Language Model
GPT-3

文章目录

  • 1. 研究背景&核心观察结果
  • 2. 实验
    • 1. 实验设置
    • 2. 观察实验结果
    • 3. 解决方案

1. 研究背景&核心观察结果

LLM难以记忆长尾知识:
在这里插入图片描述

(相关文档数量指数分箱,取QA准确率平均值)

2. 实验

1. 实验设置

1. 找相关文档:
事实QA数据集→从预训练文档里找出相关文档(如果问答对中的两个实体都出现,就算相关文档)

在这里插入图片描述

实体链接工具:DBpedia Spotlight Entity Linker1

2. QA:
在这里插入图片描述
其他示例样本数得到的结果差别不大

解码方案:贪心解码

2. 观察实验结果

(TriviaQA在BLOOM上的结果图Figure 1我放在第一节了)
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

证明相关文档必须要同时含有问答中的实体的必要性:
用问题实体或回答实体,可以得到与同时使用中相似的结果;但是如果去掉问答都有的情况,就没有这样的表现了。说明其实模型学习靠的是问答都有的情况
在这里插入图片描述

人工结果和LM结果趋势相反

对LM预测结果出现原因的分析
对比实验,证明去掉相关文档重新训练LM后准确率会下降:
在这里插入图片描述

3. 解决方案

scale数据集
没啥用,各个数据集的支持信息都差不多:
在这里插入图片描述

scale模型
想法是好的,但是需要的增量太大了
在这里插入图片描述

在这里插入图片描述

调整训练目标
改为encourage memorization
增大训练epoch数……等等

检索增强
直接用相关文档,效果能得到大幅度提升:

在这里插入图片描述

用BM25算法实现检索:
果然表现好起来了
在这里插入图片描述

在这里插入图片描述


  1. (2011 I-Semantics) DBpedia spotlight: shedding light on the web of documents ↩︎

相关文章:

  • 阿里云服务器公网带宽如何修改?
  • 力扣刷题第二十七天--二叉树
  • Android Serializable / Parcelable
  • 【HCSD大咖直播】亲授大厂面试秘诀【云驻共创】
  • 代码随想录算法训练营Day36 —— 435. 无重叠区间、763.划分字母区间、56. 合并区间
  • 低代码服务商,中小型数字化软件服务商的新出路
  • echarts折线图修改特定点的颜色
  • LLM之Prompt(二):清华提出Prompt 对齐优化技术BPO
  • 键鼠自动化2.0树形结构讲解
  • Using Set Processing Effectively 有效地使用集合处理
  • electron使用better-sqlite3打包失败(electron打包有进程没有界面)
  • IDEA 快捷键汇总
  • 亚马逊运营一定要用动/静态住宅IP代理吗?
  • 深度学习(小土堆)
  • R语言实现多变量孟德尔随机化分析(1)
  • codis proxy处理流程
  • hadoop入门学习教程--DKHadoop完整安装步骤
  • Java应用性能调优
  • k8s 面向应用开发者的基础命令
  • overflow: hidden IE7无效
  • rc-form之最单纯情况
  • SQLServer之创建数据库快照
  • vue和cordova项目整合打包,并实现vue调用android的相机的demo
  • 罗辑思维在全链路压测方面的实践和工作笔记
  • 一道面试题引发的“血案”
  • 一个项目push到多个远程Git仓库
  • ​ 全球云科技基础设施:亚马逊云科技的海外服务器网络如何演进
  • ​比特币大跌的 2 个原因
  • #100天计划# 2013年9月29日
  • ( 10 )MySQL中的外键
  • (1)Map集合 (2)异常机制 (3)File类 (4)I/O流
  • (bean配置类的注解开发)学习Spring的第十三天
  • (java)关于Thread的挂起和恢复
  • (JS基础)String 类型
  • (定时器/计数器)中断系统(详解与使用)
  • (二)什么是Vite——Vite 和 Webpack 区别(冷启动)
  • (附源码)计算机毕业设计SSM智能化管理的仓库管理
  • (剑指Offer)面试题41:和为s的连续正数序列
  • (九十四)函数和二维数组
  • (十六)Flask之蓝图
  • (四)图像的%2线性拉伸
  • (五)Python 垃圾回收机制
  • (转)c++ std::pair 与 std::make
  • ******之网络***——物理***
  • .Net 高效开发之不可错过的实用工具
  • .NET 跨平台图形库 SkiaSharp 基础应用
  • .net 流——流的类型体系简单介绍
  • .net和jar包windows服务部署
  • .NET连接数据库方式
  • .NET与 java通用的3DES加密解密方法
  • .NET中winform传递参数至Url并获得返回值或文件
  • @DependsOn:解析 Spring 中的依赖关系之艺术
  • [ CTF ] WriteUp-2022年春秋杯网络安全联赛-冬季赛
  • [ Linux 长征路第五篇 ] make/Makefile Linux项目自动化创建工具
  • [100天算法】-二叉树剪枝(day 48)