当前位置: 首页 > news >正文

NV-Embed论文阅读笔记

在这里插入图片描述

  • 这是NVIDIA的一篇论文,LLM通常使用的是GPT的decoder范式作为一个生成模型,文章探讨如何利用这样的decoder生成模型来实现BERT这样的encoder的功能,即提取有效的embedding。
  • 现有的方法提取embedding的方式无非是 1 mean pooling; 2 the last token embedding。前者是encoder-like的model用得多,后者是decoder-like的model用得多。然而这两者都有问题。
  • 文章提出的方法是,decoder模型正常是会通过循环的方式生成一段序列嘛,最后一个time step的一层的Q就是 l × d l\times d l×d的, l l l个token每个 d d d维,然后我预定义一个latent array,是 r × d r\times d r×d的,它作为 r r r个token的K和V,用来和Q算attention(实际上做的是多头注意力,这里简单起见按单头注意力讲解),得到 O O O l × d l\times d l×d的,再接MLP GELU MLP,再过一个mean pooling,得到最终的embedding。
  • 文章一边说train from scratch,又说用LoRA,就很奇怪。
  • 另外呢,文章把mask去掉了,之前的GPT,每个token做注意力只能看到前面的token,但文章发现直接全都看得到在提取embedding方面效果更好:
    在这里插入图片描述
  • 文章试验了bidirect attention/causal attention的对比,EOS Mean latent-attention self-attention的对比:
    在这里插入图片描述

相关文章:

  • 【OpenHarmony4.1 之 U-Boot 2024.07源码深度解析】008 - make distclean 命令解析
  • COUNT(id) 和 COUNT(1) 的区别
  • NLP入门——复杂函数建模与链式求导
  • 高速公路收费图片分析系统深入理解
  • HTML5和CSS3总结
  • Gone框架介绍29 - 在Gone中使用gRPC通信
  • 【MySQL】数据库
  • opencascade AIS_InteractiveContext源码学习1 object display management 对象显示管理
  • (一)utf8mb4_general_ci 和 utf8mb4_unicode_ci 适用排序和比较规则场景
  • 每日一练 - OSPF邻接与邻居关系
  • SpringMVC 写个 HelloWorld
  • visual studio error MSB8008:
  • 顶级管理者的新视角:管理状态而非时间
  • Hadoop升级失败,File system image contains an old layout version -64
  • Vue中CSS动态样式绑定
  • Android Volley源码解析
  • Android框架之Volley
  • ComponentOne 2017 V2版本正式发布
  • IDEA 插件开发入门教程
  • Java新版本的开发已正式进入轨道,版本号18.3
  • js继承的实现方法
  • Logstash 参考指南(目录)
  • vue-router的history模式发布配置
  • 编写高质量JavaScript代码之并发
  • 机器学习学习笔记一
  • 开发了一款写作软件(OSX,Windows),附带Electron开发指南
  • 聊一聊前端的监控
  • 如何优雅的使用vue+Dcloud(Hbuild)开发混合app
  • 网络应用优化——时延与带宽
  • 微信小程序--------语音识别(前端自己也能玩)
  • 小李飞刀:SQL题目刷起来!
  • 一起来学SpringBoot | 第三篇:SpringBoot日志配置
  • 以太坊客户端Geth命令参数详解
  • 基于django的视频点播网站开发-step3-注册登录功能 ...
  • 新年再起“裁员潮”,“钢铁侠”马斯克要一举裁掉SpaceX 600余名员工 ...
  • 直播平台建设千万不要忘记流媒体服务器的存在 ...
  • ​LeetCode解法汇总1276. 不浪费原料的汉堡制作方案
  • ![CDATA[ ]] 是什么东东
  • #git 撤消对文件的更改
  • #vue3 实现前端下载excel文件模板功能
  • #我与Java虚拟机的故事#连载14:挑战高薪面试必看
  • (2024)docker-compose实战 (9)部署多项目环境(LAMP+react+vue+redis+mysql+nginx)
  • (Forward) Music Player: From UI Proposal to Code
  • (二)【Jmeter】专栏实战项目靶场drupal部署
  • (二)c52学习之旅-简单了解单片机
  • (附源码)SSM环卫人员管理平台 计算机毕设36412
  • (力扣题库)跳跃游戏II(c++)
  • (论文阅读32/100)Flowing convnets for human pose estimation in videos
  • (算法设计与分析)第一章算法概述-习题
  • (转)socket Aio demo
  • (转)大道至简,职场上做人做事做管理
  • (轉貼) 蒼井そら挑戰筋肉擂台 (Misc)
  • .net core 6 redis操作类
  • .NET开发不可不知、不可不用的辅助类(一)
  • .net生成的类,跨工程调用显示注释