当前位置: 首页 > news >正文

大语言模型-检索测评指标

1. MRR (Mean Reciprocal Rank)平均倒数排名:

衡量检索结果排序质量的指标。
计算方式: 对于每个查询,计算被正确检索的文档的最高排名的倒数的平均值,再对所有查询的平均值取均值。
意义: 衡量对于多次查询,检索结果的排名,适用于评估检索结果排序效果好坏的情况。强调“顺序性”。
公式: |Q|表示查询的总次数, r a n k i rank_{i} ranki表示第i次查询中第一个准确结果的排序。
M R R = 1 ∣ Q ∣ ∑ i = 1 ∣ Q ∣ 1 r a n k i MRR = \frac{1}{{|Q|}}\sum_{i=1}^{|Q|}\frac{1}{rank_{i} } MRR=Q1i=1Qranki1

2. AP(Average Precision)平均精度:

衡量检索结果排序质量的指标。
计算方式: 一次查询结果正确结果的精确率求和除以查询结果的总数
意义: 衡量对于一个查询,检索结果中所有与 ground-truth相关的文档是否都有较高的排序。AP衡量的是整个排序的平均质量。
公式: K表示一次查询共查询K个文档,Pre代表精确率,Rel(n)表示这次查询结果中的第n个结果相关性分数,这里命中为1,未命中为0。
A P = ∑ n = 1 K P r e @ n ∗ R e l ( n ) K AP = \frac{\sum_{n=1}^{K}Pre@n*Rel(n)}{K} AP=Kn=1KPre@nRel(n)

2. MAP(Mean Average Precision)平均准确率:

衡量检索结果排序质量的指标。
计算方式: 对于每个查询,计算被正确检索的文档的平均精确率,再对所有查询的平均值取均值。
意义: 衡量对于多个查询,检索结果的平均精确率,适用于评估排序结果精确度的情况。
公式: |Q|表示查询的总次数,AP(i)表示第i次查询的平均精度。
M A P = 1 ∣ Q ∣ ∑ i = 1 ∣ Q ∣ A P ( i ) MAP = \frac{1}{{|Q|}}\sum_{i=1}^{|Q|}AP(i) MAP=Q1i=1QAP(i)

3. NDCG(Normalized Discounted Cumulative Gain)归一化折损累积增益:

衡量检索结果排序质量的指标。
计算方式: 对于每个查询,对每个被检索到的结果计算其相对于理想排序的增益值,然后对这些相对增益值进行加权求和,再除以理想排序的增益值
意义: 衡量对于一个查询,检索结果的绝对和相对排序质量,适用于评估排序结果的质量与排名准确度的情况。
公式: @k表示一次查询搜索k个文档;
N D C G @ k = D C G @ k I D C G @ k NDCG@k = \frac{DCG@k}{IDCG@k} NDCG@k=IDCG@kDCG@k
其中:
DCG@k(Discounted Cumulative Gain)代表这次k个查询结果列表中每个文档与查询的相关程度。
IDCG@k代表最理想的这次k个查询结果列表中的结果。
DCG@k的公式为: Rel(n)表示这次查询结果中的第n个结果相关性分数,这里命中为1,未命中为0。
D C G @ k = ∑ i = 1 k R e l ( i ) log ⁡ 2 i + 1 R e l ( i ) DCG@k=\sum_{i=1}^{k}\frac{Rel(i)}{\log_{2}{i+1} }Rel(i) DCG@k=i=1klog2i+1Rel(i)Rel(i)
IDCG@k是按照Rel(i)从高到低排序的DCG@k

4. Recall(召回率)

计算方式: 对于一个查询,所有被召回的样本正样本的比例。
意义: 关注于用户感兴趣的物品。
公式: 符号含义见下面的混淆矩阵。
r e c a l l = T P T P + F N recall = \frac{TP}{TP+FN} recall=TP+FNTP
在搜索任务中,R表示检索出的正确文档集合,T表示检索出的所有文档。
r e c a l l = R ∩ T T recall = \frac{R\cap T}{T} recall=TRT

5. Hit Rate(Recall@K)命中率

衡量检索结果准确性的指标。
计算方式: 对于一个查询,计算被正确检索的文档的占所有被检索的文档的比例。
意义: 衡量用户想要的项目有没有被检索到,强调预测的“准确性”。
公式:

6. Precision(精确率)

计算方式: 对于一个查询, 预测为正样本的样本中确实为正样本的比例。
意义: 关注于要推荐的物品。
公式: 符号含义见下面的混淆矩阵。
P r e = T P T P + F P Pre = \frac{TP}{TP+FP} Pre=TP+FPTP
在搜索任务中,R表示检索出的正确文档集合,T表示检索出的所有文档。
r e c a l l = R ∩ T T recall = \frac{R\cap T}{T} recall=TRT

7. Accuracy (准确率)

计算方式: 预测正确的样本所有样本中的比例。
意义: 每个样本的预测是否正确。
公式: 符号含义见下面的混淆矩阵。
A C C = T P + T N T P + F P + T N + F N ACC = \frac{TP+TN}{TP+FP+TN+FN} ACC=TP+FP+TN+FNTP+TN

参考

【基础】推荐系统常用评价指标Recall、NDCG、AUC、GAUC
信息检索与数据挖掘 | 【实验】检索评价指标MAP、MRR、NDCG
谈谈NDCG的计算

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Docker 修改默认镜像的存储位置
  • 【考研数学】线代满分经验分享+备考复盘
  • 【Qt】事件处理
  • 图论建模技巧搜集
  • Matlab学习笔记1
  • 扩容升级丨极海正式推出G32A1465系列汽车通用MCU,驱动智驾再进阶
  • 【转盘案例-弹框-修改Bug-完成 Objective-C语言】
  • 【中项】系统集成项目管理工程师-第2章 信息技术发展-2.2新一代信息技术及应用-2.2.1物联网与2.2.2云计算
  • arm 内联汇编基础
  • 如何在Linux上部署Ruby on Rails应用程序
  • 相同IP地址仿真测试
  • Ruby 循环
  • 单机、集群、分布式服务器比较:
  • 无人机侦察:二维机扫雷达探测设备技术详解
  • 【学习笔记】虚幻SkeletalMesh学习(一)基础介绍
  • 自己简单写的 事件订阅机制
  • Apache Pulsar 2.1 重磅发布
  • C++类中的特殊成员函数
  • canvas实际项目操作,包含:线条,圆形,扇形,图片绘制,图片圆角遮罩,矩形,弧形文字...
  • es6(二):字符串的扩展
  • es6要点
  • input实现文字超出省略号功能
  • iOS仿今日头条、壁纸应用、筛选分类、三方微博、颜色填充等源码
  • Java反射-动态类加载和重新加载
  • Mac转Windows的拯救指南
  • MySQL QA
  • php的插入排序,通过双层for循环
  • python大佬养成计划----difflib模块
  • SpiderData 2019年2月16日 DApp数据排行榜
  • Vue源码解析(二)Vue的双向绑定讲解及实现
  • web标准化(下)
  • 二维平面内的碰撞检测【一】
  • 构建工具 - 收藏集 - 掘金
  • 回流、重绘及其优化
  • 使用parted解决大于2T的磁盘分区
  • 说说动画卡顿的解决方案
  • 在 Chrome DevTools 中调试 JavaScript 入门
  • postgresql行列转换函数
  • 组复制官方翻译九、Group Replication Technical Details
  • # linux 中使用 visudo 命令,怎么保存退出?
  • (1)(1.9) MSP (version 4.2)
  • (第8天)保姆级 PL/SQL Developer 安装与配置
  • (二十五)admin-boot项目之集成消息队列Rabbitmq
  • (每日持续更新)jdk api之FileReader基础、应用、实战
  • (使用vite搭建vue3项目(vite + vue3 + vue router + pinia + element plus))
  • (学习日记)2024.02.29:UCOSIII第二节
  • (循环依赖问题)学习spring的第九天
  • (一)u-boot-nand.bin的下载
  • (转)LINQ之路
  • (转)ORM
  • .cn根服务器被攻击之后
  • .JPG图片,各种压缩率下的文件尺寸
  • .net core 6 使用注解自动注入实例,无需构造注入 autowrite4net
  • .net dataexcel 脚本公式 函数源码
  • .Net 中Partitioner static与dynamic的性能对比