当前位置: 首页 > news >正文

BLIP和BLIP2

1.BLIP

BLIP的第一个共享是将图像文本理解与图像文本生成任务进行了统一,形成了多模态统一模型,模型在ITC任务上的效果也比CLIP更好。

1.1任务

ITC:就是CLIP中的图像文本对比学习任务

ITM:针对ITC任务中匹配不正确的样本,单独进行一个Image-Text二分类任务,使得模型对齐效果更好。因为来源于网络的弱监督文本存在噪声,会使得ITC阶段的监督出现一些错误,噪声举例:

这个二分类任务的目的是让图像和文本做到细节上的对齐。

LM:基于图像,用GPT的生成任务与生成对图像的自然语言理解。

1.2网络

上图中,最左侧的image encoder还是常见的VIT等操作。

右侧的三个模型的结构很相似,其中颜色相同的部分参数也是共享的,颜色不同的部分参数不是共享的:

其中ITC和ITM的text encoder前面加上了“CLS” 和 “encoder”关键字,代表他们是处理不同任务的编码。第一步都是Bert中的BI-SELF-ATTENTION。

LM的text前加了“decoder”标记,预测过程也是GPT中一个个step逐字生成。

1.3 数据

BLIP的另外一大贡献在于:解决了来源于网络的弱监督文本的噪声问题,并且对部分图片重新生产文本。

网络数据噪声举例:

上述数据处理方法描述:

(1)红色的T_{_{w}}代表互联网上有噪声的样本,绿色的T_{h_{}}代表人类标注的真实样本。

(2)基于预训练的模型用人类标注的样本进行ITC和ITM的finetune得到更准确的模型。用新老模型分别去做推理可以过滤掉一些图文不匹配的样本。

(3)用人类标注的数据去finetune第三个LM任务,可以为一些噪声样本生成匹配的Text。

2.BLIP-2

分两个阶段:

(1)第一阶段是训练一个桥接组件,将image的embedding对齐到LLM的embedding的text空间。

(2)第二阶段相当于将image作为一个prompt给LLM,让LLM生成对图像的描述。

2.1 Image Text表征学习

2.2 Image Text生成学习

相关文章:

  • 后端项目连接数据库-添加MyBatis依赖并检测是否成功
  • mybatis的一级缓存和二级缓存
  • Mysql分区表
  • 从源代码出发,Jenkins 任务排队时间过长问题的解决过程
  • 删除容器挂载卷打包容器镜像并传到阿里云
  • C#8.0本质论第十六章--使用查询表达式的LINQ
  • 强推六款满分AI写作工具,需要自取
  • 输出SearchFacesResponse对象的JSON格式字符串回包乱码解决方案
  • 21、Resnet50 中包含哪些算法?
  • vite的使用
  • 开启gitlab中远程连接pgsql
  • 【Python-随笔】使用Python实现屏幕截图
  • Java研学-反射与内省
  • WebGL笔记:js中矩阵库的使用
  • linux常用命令-find命令与scp命令详解(超详细)
  • axios请求、和返回数据拦截,统一请求报错提示_012
  • canvas实际项目操作,包含:线条,圆形,扇形,图片绘制,图片圆角遮罩,矩形,弧形文字...
  • codis proxy处理流程
  • Js基础——数据类型之Null和Undefined
  • linux学习笔记
  • mac修复ab及siege安装
  • Making An Indicator With Pure CSS
  • PAT A1017 优先队列
  • SpringBoot几种定时任务的实现方式
  • web标准化(下)
  • 初识 webpack
  • 记录一下第一次使用npm
  • 前端自动化解决方案
  • 消息队列系列二(IOT中消息队列的应用)
  • 异步
  • # centos7下FFmpeg环境部署记录
  • #pragma once与条件编译
  • #WEB前端(HTML属性)
  • #我与Java虚拟机的故事#连载13:有这本书就够了
  • $$$$GB2312-80区位编码表$$$$
  • $redis-setphp_redis Set命令,php操作Redis Set函数介绍
  • (java版)排序算法----【冒泡,选择,插入,希尔,快速排序,归并排序,基数排序】超详细~~
  • (三)模仿学习-Action数据的模仿
  • (三分钟了解debug)SLAM研究方向-Debug总结
  • (已解决)什么是vue导航守卫
  • (转)淘淘商城系列——使用Spring来管理Redis单机版和集群版
  • (轉)JSON.stringify 语法实例讲解
  • .[backups@airmail.cc].faust勒索病毒的最新威胁:如何恢复您的数据?
  • .bat批处理(二):%0 %1——给批处理脚本传递参数
  • .bat批处理(一):@echo off
  • .Net FrameWork总结
  • .net mvc 获取url中controller和action
  • .NET Windows:删除文件夹后立即判断,有可能依然存在
  • .NET 的程序集加载上下文
  • .NET中winform传递参数至Url并获得返回值或文件
  • .NET中的Event与Delegates,从Publisher到Subscriber的衔接!
  • .net中调用windows performance记录性能信息
  • @Async注解的坑,小心
  • @cacheable 是否缓存成功_Spring Cache缓存注解
  • [ Algorithm ] N次方算法 N Square 动态规划解决