当前位置：首页 > news >正文

LISA: Reasoning Segmentation via Large Language Model

news 来源：原创 2024/9/20 9:01:33

发表时间：CVPR 2024

论文链接：https://openaccess.thecvf.com/content/CVPR2024/papers/Lai_LISA_Reasoning_Segmentation_via_Large_Language_Model_CVPR_2024_paper.pdf

作者单位：CUHK

Motivation：尽管感知系统近年来取得了显著的进展，但在执行视觉识别任务之前，它们仍然依赖于明确的人类指令或预定义的类别来识别目标对象。此类系统无法积极推理和理解隐含的用户意图。我们能否使多模态llm能够输出分割掩码?

解决方法：在这项工作中，我们提出了一个新的分割任务——推理分割。该任务旨在在给定复杂和隐式查询文本的情况下输出分割掩码。举个例子：

为了完成这项任务，模型必须具备两个关键能力：1）与图像联合推理复杂和隐式文本查询； 2）生成分割掩码。

实现方式：

我们提出了 LISA：大型语言指令分割助手，它继承了多模态大型语言模型 (LLM) 的语言生成能力，同时还具有生成分割掩码的能力。

我们用<SEG>令牌扩展原始词汇表，并提出嵌入掩码范式来解锁分割能力。
我们建立了一个包含超过一千个图像指令掩码数据样本的基准，将复杂的推理和世界知识纳入评估目的。

模型结构：除非另有说明，否则我们使用LLAVA-7B-v1-1或LLAVA-13B-v1-1作为基础多模态LLM F，并采用ViT-H SAM骨干作为视觉骨干Fenc。γ的projection layer是一个通道为[256,4096,4096]的MLP。

训练参数：为了保持预先训练的多模态LLM (即我们实验中的LLAVA)的学习知识，我们利用LoRA对LLM进行有效的微调，并完全冻结视觉骨干Fenc。解码器 Fdec 被完全微调。此外，LLM token embeddings (embed tokens)、LLM头((lm head)和投影层γ也是可训练的。

实验：

数据集：training data comprises mainly three parts：Semantic Segmentation Dataset，Vanilla Referring Segmentation Dataset，Visual Question Answering Dataset.

结论：

a new segmentation task—reasoning segmentation。
introduced an evaluation benchmark ReasonSeg, which comprises over one thousand data samples。
提出模型——LISA。它将分割能力注入到当前的多模态llm中，并在推理分割任务中表现出奇地有效。