当前位置: 首页 > news >正文

信息检索经典文章-1

目录

  • 一 `Term Reweight`
    • Context-Aware Document Term Weighting for Ad-Hoc Search
    • term weight的predict阶段
      • 1 段落中词的重要性预测
      • 2 document-level weight
      • 3将predict的term weight用于index
      • 4 损失函数
    • true term weight estimate
  • 二 `Document expansion`
    • Document Expansion by Query Prediction
  • 三 `综述`
      • 1 检索流程:
      • 2 经典检索方法
      • 3稀疏检索模型的四种架构。
      • 4两类re-ranker

Term Reweight

Context-Aware Document Term Weighting for Ad-Hoc Search

论文核心:摒弃以往的以TF、词频这种简单的统计学方法为术语分配权重的方法,采用PLM的词表征作为术语特征重要性计算的依据之一。
提出的模型:a Context-aware Hierarchical Document Term weighting framework

文件过长,需切分为几个passage,先对passage中的术语做权值计算,(在前人研究中,提到段落中的词以200-300个词为佳)

term weight的predict阶段

1 段落中词的重要性预测

采用bert对token做embedding,之后,采用linear层得到词的weight。

在这里插入图片描述
之后,作者将实值预测缩放为可与现有检索模型一起使用的类似 tf 的整数。我们称这个权重为 tf𝐵𝐸𝑅𝑇,以传达它是使用 BERT 表示段落 𝑝 中术语 𝑡 重要性的另一种方式,计算公式如下:

在这里插入图片描述
可以得到passage的bag of words的weight,在操作中,1)为了处理 BERT 的子词,我们使用整个词的第一个子词的权重,以及 2)当一个词在文章中多次出现时,我们在多次出现时取最大权重
在这里插入图片描述
文件的所有passage的weight拼接,得到整个文件的bag-of-words的weight,
在这里插入图片描述
上述过程得到的是passage级别的term的为weight

2 document-level weight

在计算文件级术语重要性程度,提出了两种思路,一是平均计算,二是考虑passage前后顺序的计算。公式如下:

在这里插入图片描述
pwi中第一种方式是:均值
第二种方式是采用段落位置的倒数作为权值,1/i,i为段落在文件中的位置。

3将predict的term weight用于index

将BM25中tf值,采用term weight替换,作为检索返回的依据。

4 损失函数

MSE损失函数: 在这里插入图片描述

true term weight estimate

我们有什么证据表明一个术语对文档检索的重要性?本文提出了三种训练策略:针对只有文档可用的情况的基于内容的方法,针对丰富的查询文档相关性评估可能受到攻击的情况的基于相关性的方法,以及针对搜索查询的情况的基于伪相关性的方法可以收集,但相关标签或用户活动不可访问。
这部分,没有细看,公式也文中作者自己定义的,可参照原文。

Document expansion

Document Expansion by Query Prediction

论文核心:将PLM用在了扩展查询的query中,利用生成模型,生成文件可能相关的query,扩展到文件的query中。
在这里插入图片描述
文中目标:预测和文件有关的query
长度设置:文件长度设置为400个token,query长度设置为100token
每个文件生成10个query。

综述

这个领域的综述:Pre-training Methods in
Information Retrieval
没有找到翻译版,不过英文版看起来,也还可以,大家围绕的点还是在BM25 、检索的几个过程。

1 检索流程:

在这里插入图片描述

2 经典检索方法

  1. 经典检索模型

:这些模型的关键思想是利用精确匹配信号来设计相关性评分函数。具体来说,这些模型考虑了在 q 和 d 之间精确匹配的归一化术语的易于计算的统计数据(例如,术语频率、文档长度和逆文档频率)。并且文档中出现的每个查询词的贡献总和用于得出相关性分数。在这些模型中,BM25 (Robertson et al., 1994) 被证明是有效的,并且仍然被认为是当今许多检索模型的强基线。除了 BM25 及其变体之外,还有其他具有代表性的检索函数,例如源自向量空间模型、DIR 的 PIV (Singhal et al., 2017)

  1. 学习排名 (LTR) 模型:

这些模型的关键思想是应用监督机器学习技术,使用手工制作的人工设计特征来解决排名问题。有效特征包括基于查询的特征(例如,查询类型和查询长度)、基于文档的特征(例如,PageRank、文档长度、内链接数和点击次数)和查询-文档匹配特征(例如,出现次数、BM25、N-gram BM25 和编辑距离)。根据损失函数中考虑的文档数量,LTR 模型可以分为三种基本类型: 1)Pointwise 方法,它考虑单个文档并将检索问题视为分类或回归问题。示例模型包括 PRank (Perceptron Ranking) (Crammer and Singer, 2001) 和 McRank (Li et al., 2007)。 2) 考虑成对文档的成对方法。例如,RankNet (Burges et al., 2005) 是一种成对方法,它采用交叉熵作为学习中的损失函数,而 RankSVM (Herbrich, 1999) 将排序作为成对分类问题,并采用 SVM 技术来执行学习任务. 3) 考虑整个文档列表的 Listwise 方法。例如,LambdaMart (Burges et al., 2006) 通过使用梯度下降来最小化列表损失函数来训练排名函数。有关更多详细信息,请参阅关于 IR 的 LTR 模型的另一项调查(Li,2014)。

  1. 神经检索模型:

这些模型的关键思想是利用神经网络来抽象相关信号以进行相关性估计。这些模型使用 q 和 d 的嵌入作为输入,并且通常使用相关标签以端到端的方式进行训练。与非神经模型相比,这些模型可以在没有手工特征的情况下进行训练。不失一般性,这些模型可以分为表示1)以表示为中心的模型旨在独立学习查询和文档的密集向量表示。然后使用余弦相似度和内积等指标来计算查询和文档之间的“距离”,以估计相关性得分。以表示为中心的模型示例包括 DSSM (Huang et al., 2013) 和 CDSSM (Shen et al., 2014) 等。2) 以交互为中心的模型捕获查询和文档之间的“交互”。这些模型利用相似度矩阵 A,其中每个条目 Aij 表示第 i 个查询词的嵌入与第 j 个文档词的嵌入之间的相似度。在构建相似度矩阵之后,基于交互的模型应用不同的方法来提取用于生成查询文档相关性分数的特征。以交互为中心的示例模型包括 DRMM (Guo et al., 2016) 和 convKNRM (Xiong et al., 2017b) 等。 3) 混合模型结合了以表示为中心的组件和以交互为中心的组件的设计,例如,Duet(Mitra 等人,2017)和 CEDR(MacAvaney 等人,2019)。有关更多详细信息,请参阅这些早期关于 IR 的 NeuIR 模型的调查(Onal 等人,2017 年;Guo 等人,2020 年)

3稀疏检索模型的四种架构。

在这里插入图片描述

4两类re-ranker

在这里插入图片描述
1)Discriminative Ranking Models: model P(r, d|q) by directly learning a relevance “classifier” from labeled data

  1. Generative Ranking Models:通过对查询和文档之间的生成过程进行建模来近似真实的相关性分布P(r|q, d); 3)Hybrid Retrieval Models:混合检索模型:联合学习判别模型和生成模型,以利用两者的优点以获得更好的排名性能

看到第4章了。

相关文章:

  • tensorflow 2.10.0安装所需依赖库版本确定方法
  • Hadoop平台搭建与数据分析实验报告
  • # 透过事物看本质的能力怎么培养?
  • 数据库-存储过程
  • 【0基础学习mysql】之DML-表中数据的操作
  • HybirdCLR 探索—— .NET相关概念(基础)
  • Linux篇【1】:入门与基本指令详解(中)
  • 基于强化学习PPO(Proximal Policy Optimization)算法的无人机姿态控制系统
  • HDFS源码分析——NameNode启动流程
  • 【Day20】LeetCode算法题【1784. 检查二进制字符串字段】【14. 最长公共前缀】
  • 状态反馈镇定之非线性系统反馈线性化
  • 【408计算机组成原理】—加减运算和溢出判断(八)
  • vue3 setup的四点注意
  • Python 输入与输出
  • 基于JAVA校园租赁系统的设计与实现计算机毕业设计源码+系统+数据库+lw文档+部署
  • 【面试系列】之二:关于js原型
  • ES6语法详解(一)
  • IIS 10 PHP CGI 设置 PHP_INI_SCAN_DIR
  • JavaScript标准库系列——Math对象和Date对象(二)
  • Spring思维导图,让Spring不再难懂(mvc篇)
  • 从PHP迁移至Golang - 基础篇
  • 高程读书笔记 第六章 面向对象程序设计
  • 给第三方使用接口的 URL 签名实现
  • 聊聊flink的TableFactory
  • 聊聊springcloud的EurekaClientAutoConfiguration
  • 每个JavaScript开发人员应阅读的书【1】 - JavaScript: The Good Parts
  • 前嗅ForeSpider中数据浏览界面介绍
  • 深度学习中的信息论知识详解
  • 使用common-codec进行md5加密
  • 优秀架构师必须掌握的架构思维
  • 不要一棍子打翻所有黑盒模型,其实可以让它们发挥作用 ...
  • ​​​​​​​​​​​​​​汽车网络信息安全分析方法论
  • #if和#ifdef区别
  • #快捷键# 大学四年我常用的软件快捷键大全,教你成为电脑高手!!
  • #我与Java虚拟机的故事#连载09:面试大厂逃不过的JVM
  • #我与Java虚拟机的故事#连载16:打开Java世界大门的钥匙
  • (解决办法)ASP.NET导出Excel,打开时提示“您尝试打开文件'XXX.xls'的格式与文件扩展名指定文件不一致
  • (转)Scala的“=”符号简介
  • (转载)CentOS查看系统信息|CentOS查看命令
  • ****** 二 ******、软设笔记【数据结构】-KMP算法、树、二叉树
  • ..thread“main“ com.fasterxml.jackson.databind.JsonMappingException: Jackson version is too old 2.3.1
  • .net 7 上传文件踩坑
  • .NET Framework Client Profile - a Subset of the .NET Framework Redistribution
  • .net 桌面开发 运行一阵子就自动关闭_聊城旋转门家用价格大约是多少,全自动旋转门,期待合作...
  • .NET/C# 使用反射注册事件
  • .NET/C# 中设置当发生某个特定异常时进入断点(不借助 Visual Studio 的纯代码实现)
  • .NET开发人员必知的八个网站
  • // an array of int
  • [ Linux 长征路第二篇] 基本指令head,tail,date,cal,find,grep,zip,tar,bc,unname
  • [52PJ] Java面向对象笔记(转自52 1510988116)
  • [AAuto]给百宝箱增加娱乐功能
  • [C#]C#学习笔记-CIL和动态程序集
  • [CISCN2019 华北赛区 Day1 Web2]ikun
  • [EULAR文摘] 利用蛋白组学技术开发一项蛋白评分用于预测TNFi疗效
  • [GN] 设计模式——面向对象设计原则概述