当前位置：首页 > news >正文

探索大型语言模型自动评估 LLM 输出长句准确性的方法

news 来源：原创 2024/7/5 0:47:49

LLM现在能够自动评估较长文本中的事实真实性

源码地址：https://github.com/google-deepmind/long-form-factuality
论文地址：https://arxiv.org/pdf/2403.18802.pdf

这篇论文是关于谷歌DeepMind的，提出了新的数据集、评估方法和衡量标准，用于对 LLM 长式事实性（长式事实性）和信息准确性进行基准测试。

研究要点包括：

挑战：没有数据集、评估方法或指标来评估LLM长式产出的真实性
解决方法：数据集 “LongFact”、自动评估方法 "SAFE "和评估指标 “F1@K”。
第 1 点：上述方法可以量化 “法律硕士长式成果的事实性”。
第 2 点：模型越大，越长的陈述越符合事实。

换句话说，这项研究可用于自动评估 LLM 输出的长式信息的准确性，并为 LLM 的未来发展提供参考。

LLM业绩评估的现状

近年来，法律硕士的成绩有了显著提高，但同时他们也存在"导致幻觉 "和 "说谎"的问题。特别是，"输出长句时准确度的显著降低 "是一个关键问题。其中一个原因是没有数据集可以评估法律硕士长篇回答问题的真实性。这是因为现有的大多数数据集主要是要求人们回答简短问题的问答，因此很难评估长式答案的真实性。此外，还没有确定量化长刑期事实的方法或指标，因此无法对其进行成功评估。

本研究提出的方法。

如前所述，该研究提出了以下三种对长篇法律硕士论文事实性的自动评估方法。

LongFact
SAFE（搜索增强事实评估器）。
F1@K

让我们依次来详细了解一下。

数据集： LongFact

LongFact 是本文提出的新问答数据集。

主要功能包括

包括 38 个主题的 2,280 个事实调查问题
主题分为四类：STEM（科学、技术、工程和数学）、社会科学、人文科学和其他。
包括需要长时间回答的问题
使用 GPT-4生成问题。
从生成的问题中删除重复问题，并为每个主题随机抽取 30 个问题

下图左侧显示的是 “包含在 LongFact 中的问题主题百分比”，右侧显示的是 “现有数据集与 LongFact 的比较”。

与现有的数据集相比，LongFact 是可用于评估长句事实性的数据集中主题数量最多的数据集。顺便提一下，LongFact 在 GitHub 上公开发布，任何人都可以使用。因此，它有望成为未来 LLM 研究的基础。

评估方法：SAFE（Search-Augmented Factuality Evaluator）

SAFE（Search-Augmented Factuality Evaluator）是本文提出的一种用于自动评估长格式事实性（LLM）的方法。

下图是 SAFE 的概览。

SAFE 的评估按以下顺序进行

向 LLM 输入 “提示”，并让它输出 “响应”。
使用 LLM 将回复文本分解为若干 “要素”。
使用 LLM 确定 “分解的各个元素是否与输入的提示相关”。
使用已确定相关的 "单个元素 "的 LLM 生成 Google 搜索查询。
使用生成的查询进行谷歌搜索
确定谷歌搜索结果中的 "个别元素 "是否为正确信息（以及是否有充分依据）。

实质上，如下图所示，输出文本被分解为其元素、查询生成和谷歌搜索，从搜索结果中寻找支持事实的信息。

当然，"正确信息元素数量 "越多，LLM 输出的响应就越可靠

当作者为 SAFE 与人类意见不一致的 100 个事实分配正确标签时，他们发现 SAFE 的正确率为 76%，而人类的正确率仅为 19%。此外，SAFE 的表现优于人类，而成本却不到人类评分者的二十分之一。

这意味着，SAFE 将被证明成本相对较低，准确性较高。

顺便提一下，SAFE 的实施代码也在GitHub 上以开源方式提供，任何人都可以使用。

评价指标：F1@K

F1@K 是一个同时考虑拟合率（精确度）和重复率（召回率）的指标。其具体定义如下

一致率 Prec(y)：输出 y 中 "正确信息要素 "的百分比
复制率 RK(y)：输出 y 中 "正确信息元素 "数量的最小值 S(y) 除以用户预期偏好的输出句子长度（正确信息元素数量）的数量 K min(S(y)/K,1)

而 F1@K 则将拟合度和可重复性与下式相结合。

如果 S(y)>0:.

F1@K(y)=2∗Prec(y)∗RK(y)Prec(y)+RK(y)

如果 S(y)=0:.

F1@K(y)=0。

换句话说，F1@K 的值介于 0 和 1 之间，越接近 1 表示长文本的事实性越强�

K 是一个超参数，代表用户偏好的输出文本长度（正确信息元素的数量）。假设用户认为最多 K 个 "信息正确元素 "越多越好，但对超过 K 个的 "信息正确元素 "则漠不关心。

例如，如果 K=64，用户认为 64 以内的 "正确信息要素 "越多越好，但对第 65 条及以后的信息则漠不关心。

K 值需要根据用户的偏好来设置。

这样不仅可以评估信息是否符合事实，还可以评估信息是否包含足够的信息量。

事实上，本文使用 F1@K 对 13 个 LLM 进行了基准测试，并比较了这些模型在长句中的实际表现。

使用该数据集和评估指标及方法对 LLM 性能进行比较。

实验细节

LongFact 对 13 个 LLM（Gemini、GPT、Claude 和 PaLM-2 系列）进行了基准测试，以研究LLM 中"模型大小 "与 "长文本事实性 "之间的关系。

具体来说，每个模型都会针对从 LongFact 中随机抽取的 250 个问题生成输出结果，并使用 SAFE 进行评估。

然后，他们对 F1@K（K=64 和 K=178）的性能进行了量化和比较。

结果

实验结果表明，模型越大，越长的陈述越符合事实。

例如，GPT-4-Turbo 的事实性高于 GPT-4，GPT-4 的事实性高于 GPT-3.5-Turbo。我们还可以看到，Gemini-Ultra 的事实性高于 Gemini-Pro，PaLM-2-L-IT-RLHF 的事实性高于 PaLM-2-L-IT。

此外，无论 K 值如何，三个最符合事实的模型是 GPT-4-Turbo、Gemini-Ultra 和 PaLM-2-L-IT-RLHF。

期望这项研究将成为未来法律硕士发展的基础

本文介绍了谷歌 DeepMind 关于 "正确评估长篇法律硕士论文中信息的事实性和准确性的方法 "的研究。本研究提出了 LongFact、自动评估方法 SAFE 和 F1@K 指标，用于评估长句中 LLM 的事实性。这些将有助于澄清长篇文本中大规模语言模型的事实性现状，并为今后的研究提供基础。

本研究的局限性如下：

LongFact 和 SAFE 依赖于 LLM，因此直接受到所用 LLM 功能的影响
SAFE 依靠谷歌搜索，可能无法正确评估某些事实
至于 SAFE 的性能是否与 "人类专家级评估员 "相当或更好，尚未进行测试。

因此，他们计划今后开展有关学习、微调和使用外部工具的研究，以提高较长法律硕士课程的事实性。他还表示，SAFE "依赖语言模型 "的改进以及根据 LLM 内部知识评估较长文本中事实准确性的方法的开发也在计划阶段。

相关文章：

Python面试宝典第4题：环形链表

3099. 哈沙德数 Easy

广州外贸建站模板

中控室监控台在水处理行业的作用

C++实现简化版Qt的QObject（5）：通过IEventLoopHost扩展实现win32消息循环

视频字幕提取在线工具有哪些？总结5个字幕提取工具

three.js地理坐标系有哪些，和屏幕坐标系的转换。

layui+jsp项目中实现table单元格嵌入下拉选择框功能，下拉选择框可手动输入内容或选择默认值，修改后数据正常回显。

Emp.dll文件丢失？理解Emp.dll重要性与处理常见问题

【NodeJs】入门

VuePress 的更多配置

用C语言声明汇编编写的函数，是否需要带参数列表？

格雷码与二进制转换电路设计与仿真

如何通过指纹浏览器使用代理IP？

音视频入门基础：H.264专题（9）——SPS简介

【附node操作实例】redis简明入门系列—字符串类型

AngularJS指令开发（1）——参数详解

canvas绘制圆角头像

css的样式优先级

EOS是什么

Java方法详解

Python学习之路16-使用API

关键词挖掘技术哪家强（一）基于node.js技术开发一个关键字查询工具

开源地图数据可视化库——mapnik

三分钟教你同步 Visual Studio Code 设置

数据库写操作弃用“SELECT ... FOR UPDATE”解决方案

走向全栈之MongoDB的使用

你学不懂C语言，是因为不懂编写C程序的7个步骤 ...

＃在线报价接单再坚持一下明天是真的周六.出现货实单来谈

$ git push -u origin master 推送到远程库出错

（1）STL算法之遍历容器

（C#）一个最简单的链表类

(Repost) Getting Genode with TrustZone on the i.MX

（二十三）Flask之高频面试点

（附源码）ssm高校志愿者服务系统毕业设计 011648

（论文阅读26/100）Weakly-supervised learning with convolutional neural networks

（四）图像的%2线性拉伸

(转)关于多人操作数据的处理策略

* 论文笔记【Wide Deep Learning for Recommender Systems】

.net core webapi 大文件上传到wwwroot文件夹

.NET 实现 NTFS 文件系统的硬链接 mklink /J（Junction）

.net6使用Sejil可视化日志

.NET精简框架的“无法找到资源程序集”异常释疑

@GlobalLock注解作用与原理解析

@requestBody写与不写的情况

[ IO.File ] FileSystemWatcher

[ vulhub漏洞复现篇 ] JBOSS AS 4.x以下反序列化远程代码执行漏洞CVE-2017-7504

[ 代码审计篇 ] 代码审计案例详解(一) SQL注入代码审计案例

[20190401]关于semtimedop函数调用.txt

[Angular 基础] - 数据绑定(databinding)

[Cloud Networking] Layer Protocol (continue)

[codeforces]Levko and Permutation

[C语言][PTA基础C基础题目集] strtok 函数的理解与应用

[ffmpeg] 定制滤波器

[HAOI2016]食物链