当前位置: 首页 > news >正文

预训练模型语义相似性计算(十一) - M3E和BGE

M3E

m3e由MokaAI 训练,开源和评测。

m3e的详细介绍可以看官方的github介绍。本文简要摘录其中一些点,以便后续的应用。
1.千万级 (2200w+) 的中文句对数据(开源)。
2.支持同质相似句计算(s2s)和异质检索(s2p),后续支持代码检索。
3.m3e基座模型为roberta,支持微调。

C-Pack

bge由北京智源人工智能研究院发布。
论文:C-Pack: Packed Resources For General Chinese Embeddings
论文推出了一个中文的嵌入资源包c-pack。
其中包括了:
        1.C-MTP,一个大型的文本嵌入训练集,包括了大量的非监督语料库和高质量标注的有监督语料库。
        2.C-MTEB,一个涵盖6个任务和35个数据的中文文本嵌入基准。
        3.BGE,多尺寸的文本嵌入模型。
所有资源:GitHub - FlagOpen/FlagEmbedding: Retrieval and Retrieval-augmented LLMs

C-MTEB和C-MTP的数据组成和BGE的三阶段训练流程如下图所示:

BGE

1,预训练,在大规模高质量中文语料上进行预训练,预训练方法为MAE风格的RetroMAE
2.通用微调,在C-MTP无监督语料下进行对比学习,没有特意挖掘负样本,而是以来批次内负样本,并通过增大批次从而增加嵌入的判别性。
3.特定任务微调,在C-MTP有监督语料下训练,有监督语料量少但是质量高,为了缓解语料任务之间的矛盾,微调使用指令微调。另外,除了批内负样本外,还为每个文本对挖掘一个硬负样本(ANCE)

BGE-m3

论文:BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation

模型特点:

1.多语言:支持超过100种语言
2.多粒度:不同粒度的输入,最多8192个token
3.多功能:密集检索,多向量检索,稀疏检索

技术贡献:

1.自我知识蒸馏方法,其中来自不同检索功能的相关性分数可以集成为教师信号以提高训练质量。2.优化了批处理策略,实现了大批量和高训练吞吐量,以确保嵌入的判别性。

混合检索

密集检索
使用[cls]表示query向量,内积表示相关性
词汇(稀疏)检索
使用公共token的权重表示相关性
多向量检索 
query和passage token之间计算相关性  colBERT https://www.bilibili.com/read/cv33838680/

自我知识蒸馏
训练过程

第一步 使用密集检索的损失在无监督数据上进行对比学习。
第二部 在有监督语料上使用自我知识蒸馏训练。
自我知识蒸馏过程:
    1.混合检索损失 = 密集检索损失 + 稀疏检索损失 + 多向量检索
    2.使用混合检索的损失作为教师模型监督信号,其中任何一个检索方式的得分作为学生模型。
    3.最后将蒸馏损失和混合检索损失作为最后的损失。

训练流程优化
    根据文本长度采样,确保一个batch内文本长度相对相似,从而减少填充。
    将一批数据分成多个小批。对于每个小批,我们利用模型编码文本,收集输出的向量同时丢弃所有前向传播中的中间状态,最后汇总向量计算损失。

长文本优化
    MCLS(Multiple CLS):为每个固定数量的token插入一个cls token,每个cls token可以从相邻的token获取语义信息。最后,通过对所有cls token的最后隐藏状态求平均值来获得最终的文本嵌入。

注:BGE中其他的方法(RetroMAE、ANCE等)在BGE-M3中仍然使用。

相关文章:

  • P7-P9【分配器】【源文件】【OOPvs.GP】
  • Flutter 中的 AnimatedPadding 小部件:全面指南
  • 跳绳步法汇总
  • go语言初识别(五)
  • 【文末附gpt升级方案】GPT-4级别的AI系统安全性探讨与未来展望
  • 【Linux】Linux的权限_2 + Linux环境基础开发工具_1
  • BIO/NIO学习
  • JAVA面试题大全(十二)
  • 常见的MySQL语句类型及其基础用法
  • 高效写代码java-推荐插件1(格式转化 ConverterX )-日后待更新
  • 实时通信的方式——WebRTC
  • Mysql 备份恢复 mysqldump与xtrabackup备份
  • 6.8 LIBBPF API(七,bpf_core_read.h 函数,定义,枚举)
  • 自适应星空背景个人导航单页(附带源码)
  • 香橙派华为昇腾CANN架构编译opencv4.9
  • Docker容器管理
  • Invalidate和postInvalidate的区别
  • markdown编辑器简评
  • mysql_config not found
  • PHP的类修饰符与访问修饰符
  • React+TypeScript入门
  • spring boot 整合mybatis 无法输出sql的问题
  • XForms - 更强大的Form
  • 从零开始的webpack生活-0x009:FilesLoader装载文件
  • 关于Flux,Vuex,Redux的思考
  • 海量大数据大屏分析展示一步到位:DataWorks数据服务+MaxCompute Lightning对接DataV最佳实践...
  • 前端之React实战:创建跨平台的项目架构
  • 数据仓库的几种建模方法
  • 项目管理碎碎念系列之一:干系人管理
  • 组复制官方翻译九、Group Replication Technical Details
  • ​​​【收录 Hello 算法】9.4 小结
  • ​ubuntu下安装kvm虚拟机
  • #!/usr/bin/python与#!/usr/bin/env python的区别
  • #DBA杂记1
  • #stm32驱动外设模块总结w5500模块
  • #预处理和函数的对比以及条件编译
  • (1)Android开发优化---------UI优化
  • (1/2) 为了理解 UWP 的启动流程,我从零开始创建了一个 UWP 程序
  • (floyd+补集) poj 3275
  • (ibm)Java 语言的 XPath API
  • (LeetCode C++)盛最多水的容器
  • (windows2012共享文件夹和防火墙设置
  • (附源码)springboot炼糖厂地磅全自动控制系统 毕业设计 341357
  • (附源码)springboot美食分享系统 毕业设计 612231
  • (三)Hyperledger Fabric 1.1安装部署-chaincode测试
  • (算法)硬币问题
  • (一)80c52学习之旅-起始篇
  • (转载)利用webkit抓取动态网页和链接
  • ******之网络***——物理***
  • .desktop 桌面快捷_Linux桌面环境那么多,这几款优秀的任你选
  • .equals()到底是什么意思?
  • .form文件_SSM框架文件上传篇
  • .NET CF命令行调试器MDbg入门(一)
  • .net dataexcel 脚本公式 函数源码
  • .NET框架设计—常被忽视的C#设计技巧