当前位置：首页 > news >正文

AI推介-多模态视觉语言模型VLMs论文速览（arXiv方向）：2024.06.20-2024.06.25

news 来源：原创 2024/7/7 11:28:05

文章目录~

1.MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval
2.MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning
3.DKPROMPT: Domain Knowledge Prompting Vision-Language Models for Open-World Planning
4.Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP
5.DocParseNet: Advanced Semantic Segmentation and OCR Embeddings for Efficient Scanned Document Annotation
6.Zero-Shot Long-Form Video Understanding through Screenplay
7.Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts
8.Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment
9.Multi-Modal Vision Transformers for Crop Mapping from Satellite Image Time Series
10.InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection
11.A Simple Framework for Open-Vocabulary Zero-Shot Segmentation
12.MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception
13.DiPEx: Dispersing Prompt Expansion for Class-Agnostic Object Detection
14.CLIP-Decoder : ZeroShot Multilabel Classification using Multimodal CLIP Aligned Representation

1.MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval

标题:作为视频讲述者的 MLLM：缓解视频时刻检索中的模态失衡问题

author:Weitong Cai, Jiabo Huang, Shaogang Gong, Hailin Jin, Yang Liu

publish:Under review

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17880v1

摘要：
视频瞬间检索（VMR）旨在根据自然语言查询，在未经剪辑的长视频中定位特定的时间片段。现有方法往往存在训练注释不足的问题，即句子通常只与前景中一小部分突出的视频内容相匹配，而措辞的多样性有限。这种固有模态的不平衡使得相当一部分视觉信息无法与文本对齐。这就将跨模态对齐知识限制在了有限的文本语料库范围内，从而导致视觉-文本建模效果不理想，通用性差。在这项工作中，我们利用多模态大语言模型（MLLM）的视觉-文本理解能力，将 MLLM 作为视频解说员，生成可信的视频文本描述，从而缓解模态不平衡问题，提高时态定位能力。为了有效保持定位的时间敏感性，我们设计获取每个特定视频时间戳的文本叙述，并构建一个包含时间信息的结构化文本段落，该段落在时间上与视觉内容保持一致。然后，我们在时间感知叙述和相应的视频时间特征之间进行跨模态特征合并，生成语义增强的视频表示序列，用于查询定位。随后，我们引入了单模态叙事-查询匹配机制，鼓励模型从上下文连贯描述中提取互补信息，以改进检索。在两个基准上进行的广泛实验表明了我们所提方法的有效性和通用性。

2.MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

标题:MG-LaVA：实现多粒度视觉指令调整

author:Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17770v2

摘要：
多模态大语言模型（MLLM）在各种视觉理解任务中取得了长足进步。然而，这些模型大多只能处理低分辨率图像，这限制了它们在需要详细视觉信息的感知任务中的有效性。在我们的研究中，我们提出了 MG-LaVA，这是一种创新的 MLLM，它通过整合多粒度视觉流（包括低分辨率、高分辨率和以物体为中心的特征）来增强模型的视觉处理能力。我们建议整合额外的高分辨率视觉编码器来捕捉细粒度细节，然后通过 Conv-Gate 融合网络将这些细节与基本视觉特征融合在一起。为了进一步提高模型的物体识别能力，我们加入了从离线检测器识别的边界框中提取的物体级特征。通过指令调整，MG-LaVA 只需在公开的多模态数据上进行训练，就能表现出卓越的感知能力。我们将 MG-LaVA 与各种语言编码器（从 3.8B 到 34B 不等）进行实例化，以全面评估该模型的性能。在多个基准测试中进行的广泛评估表明，MG-LaVA 的性能优于参数大小相当的现有 MLLM，展示了其卓越的功效。代码可在 https://github.com/PhoenixZ810/MG-LLaVA 上获取。

3.DKPROMPT: Domain Knowledge Prompting Vision-Language Models for Open-World Planning

标题:DKPROMPT：用于开放世界规划的领域知识提示视觉语言模型

author:Xiaohan Zhang, Zainab Altaweel, Yohei Hayamizu, Yan Ding, Saeid Amiri, Hao Yang, Andy Kaminski, Chad Esselink, Shiqi Zhang

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17659v1

摘要：
视觉语言模型（VLM）已被应用于机器人任务规划问题，即机器人以自然语言接收任务，并根据视觉输入生成规划。虽然目前的视觉语言模型已经显示出很强的视觉语言理解能力，但在规划任务中的表现还远远不能令人满意。同时，虽然基于 PDDL 的经典任务规划器在长视距任务规划方面表现出色，但在意外情况频发的开放世界中，它们的表现并不理想。在本文中，我们提出了一种名为 DKPROMPT 的新型任务规划和执行框架，它利用 PDDL 中的领域知识自动进行 VLM 提示，从而实现开放世界中的经典规划。定量实验的结果表明，DKPROMPT 在任务完成率方面优于经典规划、基于 VLM 的纯规划和其他一些有竞争力的基线规划。

4.Mitigate the Gap: Investigating Approaches for Improving Cross-Modal Alignment in CLIP

标题:缩小差距：研究改进 CLIP 中跨模式对齐的方法

author:Sedigheh Eslami, Gerard de Melo

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17639v2

摘要：
对比语言图像预训练（CLIP）在零镜头分类和跨模态视觉语言任务中取得了显著的进步。然而，从几何学的角度来看，CLIP 的嵌入空间存在明显的模态差距。这种差距使得嵌入空间过于稀疏和断开，不同模态密集分布在超球体的不同子区域。在这项工作中，我们旨在回答两个主要问题：1.多模态编码器之间共享参数空间是否会缩小模态差距？2.能否通过模态内分离将单模态嵌入推开，从而减轻模态差距？为了回答这些问题，我们设计了 AlignCLIP，并证明这两个问题的答案都是肯定的。通过大量的实验，我们证明 AlignCLIP 在嵌入的跨模态对齐方面取得了明显的改进，从而缩小了模态差距，同时在多个下游评估中保持了性能，如零点图像分类、零点多模态检索和零点语义文本相似性。

5.DocParseNet: Advanced Semantic Segmentation and OCR Embeddings for Efficient Scanned Document Annotation

标题:DocParseNet：用于高效扫描文件注释的高级语义分割和 OCR 嵌入

author:Ahmad Mohammadshirazi, Ali Nosrati Firoozsalari, Mengxi Zhou, Dheeraj Kulshrestha, Rajiv Ramnath

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17591v1

摘要：
对扫描文档进行自动化注释具有挑战性，需要在计算效率和准确性之间取得平衡。DocParseNet 结合了深度学习和多模态学习来处理文本和视觉数据，从而解决了这一问题。该模型超越了传统的 OCR 和语义分割，能够捕捉文本和图像之间的相互作用，从而在复杂的文档结构中保留上下文的细微差别。我们的评估结果表明，DocParseNet 的性能明显优于传统模型，在验证集上的 mIoU 得分为 49.12，在测试集上的 mIoU 得分为 49.78。与最先进的基线模型相比，准确率提高了 58%，与 UNext 基线模型相比，准确率提高了 18%。值得注意的是，DocParseNet 仅用 280 万个参数就取得了这些结果，与其他模型相比，模型大小减少了约 25 倍，训练速度提高了 5 倍。这些指标加上 0.034 TFLOPs（BS=1）的计算效率，凸显了 DocParseNet 在文档注释方面的高性能。该模型的适应性和可扩展性使其非常适合现实世界中的企业文档处理应用。代码见 https://github.com/ahmad-shirazi/DocParseNet

6.Zero-Shot Long-Form Video Understanding through Screenplay

标题:通过剧本了解零镜头长视频

author:Yongliang Wu, Bozheng Li, Jiawang Cao, Wenbo Zhu, Yi Lu, Weiheng Chi, Chuyun Xie, Haolin Zheng, Ziyue Su, Jay Wu, Xu Yang

publish:Highest Score Award to the CVPR’2024 LOVEU Track 1 Challenge

date Time:2024-06-25

paper pdf:http://arxiv.org/pdf/2406.17309v1

摘要：
长篇视频答题任务要求对扩展视频内容进行理解和分析，以便利用时间和上下文信息准确回答问题。在本文中，我们介绍了 MM-Screenplayer，这是一种先进的视频理解系统，具有多模态感知能力，可以将任何视频转换为文本剧本表述。与以往讲故事的方法不同，我们将视频内容组织成场景作为基本单位，而不仅仅是视觉上的连续镜头。此外，我们还开发了一种 "回看 "策略，用于重新评估和验证不确定信息，特别是针对断点模式。MM-Screenplayer 在 CVPR’2024 LOng-form VidEo Understanding (LOVEU) Track 1 Challenge 中获得了最高分，全局准确率为 87.5%，断点准确率为 68.8%。

7.Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts

标题:在图像干草堆中失去视觉针：视觉语言模型在长短语境中都容易分心

author:Aditya Sharma, Michael Saxon, William Yang Wang

publish:Under review

date Time:2024-06-24

paper pdf:http://arxiv.org/pdf/2406.16851v1

摘要：
我们介绍的 LoCoVQA 是一种动态基准生成器，用于评估视觉语言模型（VLM）中的长语境提取推理。LoCoVQA 为数学推理、VQA 和字符识别任务的测试示例添加了越来越长的视觉上下文，这些上下文由分布内和分布外的干扰图像组成。在这些任务中，随着视觉上下文长度的增加，一组不同的 VLM 会迅速丧失性能，通常会表现出惊人的指数衰减趋势。这项测试评估了 VLM 在回答查询时忽略无关信息的能力–这项任务对于文本领域的语言模型 (LM) 来说非常容易–表明当前最先进的 VLM 在许多长语境应用中缺乏这种基本能力。

8.Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment

标题:视觉语言一致性指导下的多模态提示学习，用于盲人人工智能生成的图像质量评估

author:Jun Fu, Wei Zhou, Qiuping Jiang, Hantao Liu, Guangtao Zhai

publish:Accepted by IEEE Signal Processing Letter

date Time:2024-06-24

paper pdf:http://arxiv.org/pdf/2406.16641v1

摘要：
最近，文本提示调整在将对比语言-图像预训练（CLIP）模型适应于自然图像质量评估方面表现出了令人鼓舞的性能。然而，这种单模式提示学习方法只能调整 CLIP 模型的语言分支。这不足以将 CLIP 模型应用于人工智能生成的图像质量评估（AGIQA），因为人工智能生成的图像在视觉上与自然图像不同。此外，AGI 与用户输入文本提示之间的一致性（与 AGI 的感知质量相关）也没有得到研究以指导 AGIQA。在这封信中，我们为盲人 AGIQA 提出了视觉语言一致性指导下的多模态提示学习，并将其命名为 CLIP-AGIQA。具体来说，我们在 CLIP 模型的语言和视觉分支中分别引入了可学习的文本和视觉提示。此外，我们还设计了一个文本到图像配准质量预测任务，其学习到的视觉语言一致性知识用于指导上述多模态提示的优化。在两个公开的 AGIQA 数据集上的实验结果表明，所提出的方法优于最先进的质量评估模型。源代码见 https://github.com/JunFu1995/CLIP-AGIQA。

9.Multi-Modal Vision Transformers for Crop Mapping from Satellite Image Time Series

标题:利用卫星图像时间序列绘制作物图的多模态视觉变换器

author:Theresa Follath, David Mickisch, Jan Hemmerling, Stefan Erasmi, Marcel Schwieder, Begüm Demir

publish:5 pages, 2 figures, 1 table. Accepted at IEEE International
Geoscience and Remote Sensing Symposium (IGARSS) 2024. Our code is available
at https://git.tu-berlin.de/rsim/mmtsvit

date Time:2024-06-24

paper pdf:http://arxiv.org/pdf/2406.16513v1

摘要：
在利用卫星图像时间序列（SITS）绘制作物图的框架中，使用不同卫星传感器获取的图像可提高分类性能。现有的先进架构使用自我注意机制处理 SITS 的时间维度，使用卷积处理 SITS 的空间维度。受纯注意力架构在单模态 SITS 农作物绘图中取得成功的启发，我们引入了几种基于多模态多时态变换器的架构。具体来说，我们在时空视觉转换器（TSViT）中研究了早期融合、交叉注意力融合和同步类令牌融合的有效性。实验结果表明，与采用卷积和自注意组件的最先进架构相比，我们的研究成果有了显著提高。

10.InterCLIP-MEP: Interactive CLIP and Memory-Enhanced Predictor for Multi-modal Sarcasm Detection

标题:InterCLIP-MEP：用于多模态讽刺检测的交互式 CLIP 和记忆增强预测器

author:Junjie Chen, Subin Huang

publish:8 pages, 6 figures, 6 tables

date Time:2024-06-24

paper pdf:http://arxiv.org/pdf/2406.16464v2

摘要：
社交媒体中通过文字和图像组合传达的讽刺信息非常普遍，这给情感分析和意图挖掘带来了巨大挑战。目前的多模态嘲讽检测方法已被证明难以应对虚假线索带来的偏差，导致对文本和图像之间复杂互动的理解流于表面。为了解决这些问题，我们提出了 InterCLIP-MEP，这是一种用于多模态讽刺检测的稳健框架。InterCLIP-MEP 引入了 CLIP 的改进变体–交互式 CLIP（InterCLIP）作为骨干，通过在每个编码器中嵌入跨模态信息来增强样本表示。此外，还设计了一种新颖的训练策略，使 InterCLIP 适应记忆增强预测器（MEP）。MEP 使用动态双通道内存来存储测试样本的宝贵历史知识，然后利用该内存作为非参数分类器来得出最终预测结果。InterCLIP-MEP 利用 InterCLIP 更有效地编码文本与图像之间的交互，并将 MEP 纳入其中，从而提供了更强大的多模态讽刺识别能力。实验证明，InterCLIP-MEP 在 MMSD2.0 基准上达到了最先进的性能。代码和数据可在 https://github.com/CoderChen01/InterCLIP-MEP 上获取。

11.A Simple Framework for Open-Vocabulary Zero-Shot Segmentation

标题:开放词汇零镜头分割的简单框架

author:Thomas Stegmüller, Tim Lebailly, Nikola Dukic, Behzad Bozorgtabar, Jean-Philippe Thiran, Tinne Tuytelaars

date Time:2024-06-23

paper pdf:http://arxiv.org/pdf/2406.16085v1

摘要：
在视觉语言对比框架下训练的模型自然会产生零镜头分类能力。尽管这些模型的分类能力很强，但在零镜头开放词汇分割等密集任务中，它们却显得力不从心。这种缺陷通常归因于字幕中缺乏定位线索，以及学习过程的交织性，其中包括图像表征学习和跨模态对齐。为了解决这些问题，我们提出了 SimZSS，一个用于开放词汇零镜头分割的简单框架。该方法基于两个关键原则：i) 利用冻结的纯视觉模型，这些模型在专门对齐文本编码器的同时表现出空间意识；ii) 利用文本和语言知识的离散性，在字幕中精确定位局部概念。通过利用视觉表征的质量，我们的方法只需要图像-字幕配对数据集，并能适应小型策划数据集和大规模噪声数据集。在 8 个 GPU 上对 COCO 字幕进行训练时，SimZSS 在 8 个基准数据集中的 7 个数据集上取得了最先进的结果，用时不到 15 分钟。

12.MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception

标题:MR-MLLM：多模态理解与视觉感知的相互强化

author:Guanqun Wang, Xinyu Wei, Jiaming Liu, Ray Zhang, Yichi Zhang, Kevin Zhang, Maurice Chong, Shanghang Zhang

publish:14 pages, 8 figures

date Time:2024-06-22

paper pdf:http://arxiv.org/pdf/2406.15768v1

摘要：
近年来，多模态大语言模型（MLLM）在视觉问题解答和常识推理等任务中表现出了卓越的能力，而视觉感知模型在检测和分割等感知任务中也取得了长足的进步。然而，MLLMs 主要侧重于高层次的图像-文本解释，在细粒度的视觉理解方面举步维艰，而视觉感知模型由于其模型容量有限，通常会出现开放世界分布偏移的问题。为了克服这些挑战，我们提出了相互增强的多模态大语言模型（Mutually Reinforced Multimodal Large Language Model，MR-MLLM），这是一种协同增强视觉感知和多模态理解的新型框架。首先，我们提出了一种共享查询融合机制，以协调视觉模型的详细视觉输入和语言模型的语言深度，从而协同增强多模态理解和视觉感知。其次，我们提出了感知增强型跨模态融合方法，将视觉感知输出中的新模态（如物体检测边界框）纳入其中，以捕捉微妙的视觉元素，从而丰富对视觉和文本数据的理解。此外，还提出了一种创新的感知嵌入式提示生成机制，将感知信息嵌入到语言模型的提示中，从上下文和感知方面对回应进行调整，从而实现更准确的多模态解释。广泛的实验证明，MR-MLLM 在各种多模态理解和视觉感知任务中表现出色，尤其是那些需要角落视觉感知和细粒度语言理解的任务。

13.DiPEx: Dispersing Prompt Expansion for Class-Agnostic Object Detection

标题:DiPEx：用于类别诊断对象检测的分散提示扩展

author:Jia Syuen Lim, Zhuoxiao Chen, Mahsa Baktashmotlagh, Zhi Chen, Xin Yu, Zi Huang, Yadan Luo

publish:19 pages

date Time:2024-06-21

paper pdf:http://arxiv.org/pdf/2406.14924v1

摘要：
分类对象检测（OD）可以是许多下游视觉任务的基石或瓶颈。尽管利用基本视觉线索识别突出物体的自下而上和多物体发现方法取得了长足进步，但由于物体类型的多样性及其上下文的复杂性，要持续实现高召回率仍然十分困难。在这项工作中，我们研究了使用视觉语言模型（VLM），通过自监督提示学习策略来增强物体检测。我们的初步研究结果表明，人工制作的文本查询往往会导致无法检测到物体，这主要是因为当查询词出现语义重叠时，检测可信度就会降低。为了解决这个问题，我们提出了分散提示扩展（DiPEx）方法。DiPEx 逐步学会扩展一组不同的、非重叠的超球形提示，以提高召回率，从而提高下游任务（如分布外 OD）的性能。具体来说，DiPEx 通过自我训练通用父提示启动这一过程，并选择语义不确定性最高的提示进行进一步扩展。由此产生的子提示语有望继承父提示语的语义，同时捕捉更细粒度的语义。我们采用分散损失来确保子提示语之间的高类间差异，同时保持父子提示语对之间的语义一致性。为防止提示集过度增长，我们利用语义空间的最大角度覆盖率 (MAC) 作为提前终止的标准。我们在 MS-COCO 和 LVIS 上进行了广泛的类区分 OD 和 OOD-OD 实验，证明了 DiPEx 的有效性，其 AR 值比其他提示方法高出 20.1%，AP 值比 SAM 高出 21.3%。代码可在 https://github.com/jason-lim26/DiPEx 上获取。

14.CLIP-Decoder : ZeroShot Multilabel Classification using Multimodal CLIP Aligned Representation

标题:CLIP-Decoder ：使用多模态 CLIP 对齐表示进行零镜头多标签分类

author:Muhammad Ali, Salman Khan

publish:Accepted at ICCVW- VLAR

date Time:2024-06-21

paper pdf:http://arxiv.org/pdf/2406.14830v1

摘要：
多标签分类是广泛应用于现实世界的一项重要任务。多标签零镜头学习是一种将图像分类为多个未见类别的方法，因为没有训练数据，而在一般的零镜头情况下，测试集可能包括观察到的类别。CLIP-Decoder 是一种基于最先进的 ML-Decoder 注意头的新方法。我们在 CLIP-Decoder 中引入了多模态表示学习，利用文本编码器提取文本特征，利用图像编码器提取图像特征。此外，我们通过在同一维度上对齐图像和文字嵌入，并使用综合损失（包括分类损失和 CLIP 损失）来比较它们各自的表示，从而最大限度地减少语义不匹配。这一策略优于其他方法，我们使用 CLIP-Decoder 在零镜头多标签分类任务中取得了尖端成果。在零点学习多标签分类任务中，我们的方法比现有方法的性能绝对提高了 3.9%。此外，在广义零点学习多标签分类任务中，我们的方法也取得了令人印象深刻的 2.3% 的提升。