当前位置: 首页 > news >正文

LISA: Reasoning Segmentation via Large Language Model

发表时间:CVPR 2024

论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Lai_LISA_Reasoning_Segmentation_via_Large_Language_Model_CVPR_2024_paper.pdf

作者单位:CUHK

Motivation尽管感知系统近年来取得了显著的进展,但在执行视觉识别任务之前,它们仍然依赖于明确的人类指令或预定义的类别来识别目标对象。此类系统无法积极推理和理解隐含的用户意图我们能否使多模态llm能够输出分割掩码?

解决方法:在这项工作中,我们提出了一个新的分割任务——推理分割。该任务旨在在给定复杂和隐式查询文本的情况下输出分割掩码。 举个例子:

为了完成这项任务,模型必须具备两个关键能力:1)与图像联合推理复杂和隐式文本查询; 2)生成分割掩码

实现方式

  • 我们提出了 LISA:大型语言指令分割助手,它继承了多模态大型语言模型 (LLM) 的语言生成能力,同时还具有生成分割掩码的能力。

  • 我们用<SEG>令牌扩展原始词汇表,并提出嵌入掩码范式来解锁分割能力。

  • 我们建立了一个包含超过一千个图像指令掩码数据样本的基准,将复杂的推理和世界知识纳入评估目的。

模型结构:除非另有说明,否则我们使用LLAVA-7B-v1-1或LLAVA-13B-v1-1作为基础多模态LLM F,并采用ViT-H SAM骨干作为视觉骨干Fenc。γ的projection layer是一个通道为[256,4096,4096]的MLP

训练参数:为了保持预先训练的多模态LLM (即我们实验中的LLAVA)的学习知识,我们利用LoRA对LLM进行有效的微调并完全冻结视觉骨干Fenc解码器 Fdec 被完全微调。此外,LLM token embeddings (embed tokens)、LLM头((lm head)和投影层γ也是可训练的

实验

数据集:training data comprises mainly three parts:Semantic Segmentation Dataset,Vanilla Referring Segmentation Dataset,Visual Question Answering Dataset.

结论

  1. a new segmentation task—reasoning segmentation。

  2. introduced an evaluation benchmark ReasonSeg, which comprises over one thousand data samples。

  3. 提出模型——LISA。它将分割能力注入到当前的多模态llm中,并在推理分割任务中表现出奇地有效。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 模板初阶(详解)
  • Linux驱动.之I2C,iic驱动层(二)
  • 字体识别验证码的介绍!
  • 【论文阅读笔记】ZooKeeper: Wait-free coordination for Internet-scale systems
  • 机器学习用python还是R,哪个更好?
  • 预防碰撞安全系统,让叉车不再盲动!
  • 编程-设计模式 27:组合实体模式
  • MySQL面试题全解析:准备面试所需的关键知识点和实战经验
  • 恒创科技:IPv4 和 IPv6 之间的主要区别
  • 编程式路由编程
  • 【学习笔记】用线段树维护区间计数问题
  • PostgreSQL学习笔记(下)
  • Python学习笔记(四)
  • 从概念到落地:全面解析DApp项目开发的核心要素与未来趋势
  • thinkphp 5.0.24生成模块
  • Asm.js的简单介绍
  • - C#编程大幅提高OUTLOOK的邮件搜索能力!
  • C++11: atomic 头文件
  • canvas 五子棋游戏
  • golang 发送GET和POST示例
  • SSH 免密登录
  • webpack项目中使用grunt监听文件变动自动打包编译
  • 深度解析利用ES6进行Promise封装总结
  • 详解NodeJs流之一
  • 小程序button引导用户授权
  • 小而合理的前端理论:rscss和rsjs
  • 源码之下无秘密 ── 做最好的 Netty 源码分析教程
  • 在weex里面使用chart图表
  • 终端用户监控:真实用户监控还是模拟监控?
  • 3月27日云栖精选夜读 | 从 “城市大脑”实践,瞭望未来城市源起 ...
  • HanLP分词命名实体提取详解
  • 关于Kubernetes Dashboard漏洞CVE-2018-18264的修复公告
  • 扩展资源服务器解决oauth2 性能瓶颈
  • ​2021半年盘点,不想你错过的重磅新书
  • (10)Linux冯诺依曼结构操作系统的再次理解
  • (笔试题)合法字符串
  • (动手学习深度学习)第13章 计算机视觉---图像增广与微调
  • (原創) X61用戶,小心你的上蓋!! (NB) (ThinkPad) (X61)
  • (转)VC++中ondraw在什么时候调用的
  • (转)大型网站架构演变和知识体系
  • ****Linux下Mysql的安装和配置
  • .NET 4 并行(多核)“.NET研究”编程系列之二 从Task开始
  • .net core 6 集成和使用 mongodb
  • .NET Core SkiaSharp 替代 System.Drawing.Common 的一些用法
  • .Net MVC4 上传大文件,并保存表单
  • .net mvc部分视图
  • .net Signalr 使用笔记
  • .NET 线程 Thread 进程 Process、线程池 pool、Invoke、begininvoke、异步回调
  • .NET多线程执行函数
  • .net和php怎么连接,php和apache之间如何连接
  • .NET框架
  • .NET企业级应用架构设计系列之应用服务器
  • .Net中的集合
  • .xml 下拉列表_RecyclerView嵌套recyclerview实现二级下拉列表,包含自定义IOS对话框...
  • @Async 异步注解使用