[论文笔记]Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline
引言
今天带来远古时代一篇关于Reranker模型的论文笔记——Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline
为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。
经过深度LM微调的重排序器(Reranker)基于丰富的上下文匹配信号估计候选项的相关性。同时,深度LM也可以用于改进搜索索引,构建具有更好召回率的检索器。人们期望将两者直接结合在一个流程中能有累积的性能提升。然而,在本文中,我们发现这种流行的重新排序器无法充分利用改进的检索结果。因此,我们提出了一种局部对比估计(Localized Contrastive Estimation)方法用于训练重排序器。
代码开源在: https://github.com/luyug/Reranker
1. 总体介绍
启发式检索器(例如 BM25)能够高效地生成初步候选结果集合,随后由一个或多个复杂的重排序器对最有前景的候选项进行重新排序。像 BERT 这样的神经语言模型对这一架构产生了重大影响,它们为启发式检索器提供了更有效的索引术语和术语权重,并为重新排序器提供了丰富的上下文匹配信号。直观地说