当前位置: 首页 > news >正文

【LLM多模态】综述Visual Instruction Tuning towards General-Purpose Multimodal Model

note

文章目录

  • note
  • 论文
  • 1. 论文试图解决什么问题
  • 2. 这是否是一个新的问题
  • 3. 这篇文章要验证一个什么科学假设
  • 4. 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
  • 5. 论文中提到的解决方案之关键是什么?
  • 6. 论文中的实验是如何设计的?
  • 7. 用于定量评估的数据集是什么?代码有没有开源?
  • 8. 论文中的实验及结果有没有很好地支持需要验证的科学假设?
  • 9. 这篇论文到底有什么贡献?
  • 10. 下一步呢?有什么工作可以持续深入?
  • Reference

论文

在这里插入图片描述
新加坡-南洋理工大学发的paper,2023年12月
我们还是从十大问题分析这篇论文,但由于是综述,可能没有实验环节详细的部分。

1. 论文试图解决什么问题

  • 一篇关于Visual Instruction Tuning 视觉指令微调任务的综述,Visual Instruction Tuning是为了让多模态LLM拥有指令遵循能力
  • 文章介绍传统CV局限性(需要针对不同任务训练不同模型,缺乏交互能力),如下图左侧

在这里插入图片描述

  • 文章从三方面介绍Visual Instruction Tuning的发展过程:单语言(英语)到多语言、图片输入从单一到多元(从图片到视频/3D图像等)、任务复杂化(从基本的图片分类到VQA视觉问答、图像生成等难任务)

在这里插入图片描述

2. 这是否是一个新的问题

去年年底到今年,类似的综述还是不少的。

3. 这篇文章要验证一个什么科学假设

4. 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?

相关的视觉微调 公开数据集如下,大部分是GPT3.5或者GPT4构造的,而且多轮对话的visual SFT数据还不少:
在这里插入图片描述

5. 论文中提到的解决方案之关键是什么?

在这里插入图片描述
跟进一步,视觉微调的主流过程,基于预训练的LLM,将视觉特征token化冰对齐到语言空间中,利用语言模型得到多模态LLM的输出:
在这里插入图片描述

6. 论文中的实验是如何设计的?

是综述,没实验。

7. 用于定量评估的数据集是什么?代码有没有开源?

用于多模态视觉微调的评估数据集:

  • VQAv2:Visual Question Answering(视觉问答)数据集,广泛用于评估模型在理解图像内容并回答问题方面的能力。
  • GQA:Graphic Question Answering数据集,包含复杂的视觉问答任务,测试模型的视觉推理能力。
  • OKVQA:Open-ended Knowledge Visual Question Answering数据集,需要外部知识来回答视觉问题,评估模型结合视觉和知识推理的能力。
  • OCR-VQA:Optical Character Recognition Visual Question Answering数据集,测试模型在图像中识别和理解文本的能力。
  • A-OKVQA:Augmented OKVQA数据集,扩展了OKVQA,包含更多样的问答对,测试模型在多种情境下的知识推理能力。
  • MSCOCO:Microsoft Common Objects in Context数据集,包含丰富的图像标注信息,广泛用于图像识别和分割任务。
  • TextCaps:数据集专注于图像字幕生成,测试模型在理解图像内容并生成自然语言描述方面的能力。
  • RefCOCO、RefCOCO+、RefCOCOg:ReferIt Game数据集的变体,用于评估模型在图像中定位指定对象的能力。
  • Visual Genome:包含图像、区域标注和关系描述的数据集,广泛用于视觉问答和图像理解任务。
  • Flickr30K:包含丰富的图像及其描述的数据集,用于评估图像字幕生成和图像理解。
  • VizWiz:数据集包含盲人用户拍摄的图像和相关问题,用于评估模型在处理实际场景和用户生成内容方面的能力。
  • ScienceQA:针对科学领域的问答数据集,测试模型在结合视觉和科学知识回答问题方面的能力。

8. 论文中的实验及结果有没有很好地支持需要验证的科学假设?

略,综述没实验。

9. 这篇论文到底有什么贡献?

这篇综述对Visual Instruction Tuning进行了任务分类:

(1)Discriminative判别式任务:
在这里插入图片描述

  • 图像分类(Image Classification):利用可学习的[CLS]token表示全局图像特征,计算[CLS] token和提示tokens之间的相似性,如下图
    在这里插入图片描述

  • 语义分割(Image Segmentation):常规的语义分割是像素级别的分类任务,LISA模型是根据复杂的query生成分割掩码,理解query并在图像中找到对应的区域(比如找到下面的维C最多的食物并标记),所以这里模型最终生成一张图。
    在这里插入图片描述

  • 目标检测(Object Detection):下图是visionLLM的做法,提出一个指令感知图像分词器(Instruction-Aware Image Tokenizer)有效理解和解析视觉输入,总之是让LLM最终回答出query指向目标的上下左右坐标。VisionLLM 在 COCO 数据集上的目标检测任务中实现了超过 60% 的平均精度(mAP),这与特定于检测的模型相当。

在这里插入图片描述

  • 视觉定位(Visual Grounding)

(2)生成式任务:

  • 图像生成
  • 图像编辑

(3)复杂推理任务:

  • Image Captioning:图像描述,可以用如MiniGPT-4、Clever Flamingo等模型
  • Visual Question Answering:即VQA视觉问答,可以用如MiniGPT-v2、instructBLIP等模型
  • Visual Assistant:视觉助手,可以用如LLaVA、Qwen-VL(多任务预训练数据很好)等模型

在这里插入图片描述

(4)视频学习的微调:视频理解、视频生成、视频字幕生成等
在这里插入图片描述
如video-chatgpt模型(如下),视频具有时序特性,Video-ChatGPT使用预训练的视频编码器将视频分割成多个帧,并提取每一帧的视觉特征。这些视觉特征再经过时序编码,生成包含时序信息的特征向量。用户可以对视频进行提问:
在这里插入图片描述

(5)文档学习的视觉微调:
在这里插入图片描述
如mPLUG-DocOwl模型:
在这里插入图片描述

(6)3D Vision Learning的视觉微调:包括depth estimation, 3D reconstruction(3D重建), object recognition, and scene comprehension(场景理解)等具体任务。

10. 下一步呢?有什么工作可以持续深入?

  • 增强模型在视觉和语言之间的对齐能力
  • 动态场景理解:比如视频、实时流媒体的多模态输入
  • 用于帮助艺术家、设计师进行图像、视频编辑;用于教育领域等

Reference

[1] Visual Instruction Tuning towards General-Purpose Multimodal Model: A Survey

相关文章:

  • MSSM手动段空间管理(Manual Segment Space Management)解析
  • 语雀——云知识库/笔记
  • 贪心算法4(c++)
  • SpringMVC相关知识集锦----1
  • Oracle数据库中的Freelist解析
  • R实验 非参数性检验(二)
  • Nginx - 健康检查终极指南:探索Upstream Check模块
  • 前后端编程语言和运行环境的理解
  • Python中别再用 ‘+‘ 拼接字符串了!
  • C++面试题记录(Qt上位机方向)
  • SpringBoot【1】集成 Druid
  • 近邻算法模型
  • 企业内网开源OA服务器(办公自动化系统),搭建O2OA基于Linux(openEuler、CentOS8)
  • 未授权访问:Hadoop 未授权访问漏洞
  • 【无标题】yoloV8目标检测与实例分割--目标检测onnx模型部署
  • AzureCon上微软宣布了哪些容器相关的重磅消息
  • HTTP那些事
  • iOS小技巧之UIImagePickerController实现头像选择
  • JavaScript 是如何工作的:WebRTC 和对等网络的机制!
  • Java教程_软件开发基础
  • Java深入 - 深入理解Java集合
  • macOS 中 shell 创建文件夹及文件并 VS Code 打开
  • Spring核心 Bean的高级装配
  • thinkphp5.1 easywechat4 微信第三方开放平台
  • Zepto.js源码学习之二
  • Zsh 开发指南(第十四篇 文件读写)
  • 翻译:Hystrix - How To Use
  • 经典排序算法及其 Java 实现
  • 前端相关框架总和
  • 前端学习笔记之观察者模式
  • 使用iElevator.js模拟segmentfault的文章标题导航
  • 第二十章:异步和文件I/O.(二十三)
  • ​ 轻量应用服务器:亚马逊云科技打造全球领先的云计算解决方案
  • # 详解 JS 中的事件循环、宏/微任务、Primise对象、定时器函数,以及其在工作中的应用和注意事项
  • ### RabbitMQ五种工作模式:
  • #DBA杂记1
  • (pycharm)安装python库函数Matplotlib步骤
  • (草履虫都可以看懂的)PyQt子窗口向主窗口传递参数,主窗口接收子窗口信号、参数。
  • (第8天)保姆级 PL/SQL Developer 安装与配置
  • (二)PySpark3:SparkSQL编程
  • (四)React组件、useState、组件样式
  • (算法)求1到1亿间的质数或素数
  • (原创)Stanford Machine Learning (by Andrew NG) --- (week 9) Anomaly DetectionRecommender Systems...
  • (转)Mysql的优化设置
  • (最新)华为 2024 届秋招-硬件技术工程师-单板硬件开发—机试题—(共12套)(每套四十题)
  • * 论文笔记 【Wide Deep Learning for Recommender Systems】
  • .NET CLR Hosting 简介
  • .net core使用RPC方式进行高效的HTTP服务访问
  • .Net Core与存储过程(一)
  • .NET gRPC 和RESTful简单对比
  • .net MVC中使用angularJs刷新页面数据列表
  • .Net Web项目创建比较不错的参考文章
  • .Net 基于MiniExcel的导入功能接口示例
  • .Net多线程Threading相关详解
  • .NET性能优化(文摘)