当前位置: 首页 > news >正文

《基础模型时代的图像分割》研究综述

图像分割的目标:将像素划分为不同的组别

现代图像分割方法:①适配基础模型(例如CLIP、Stable Diffusion、DINO)用于图像分割②开发专门的分割基础模型(如SAM)

一、本综述的两大基本研究方向

通用图像分割(即语义分割、实例分割、全景分割)

可提示的图像分割(即交互式分割、参考分割、少样本分割):指定图像要分割的内容

本综述的贡献:

对基于著名基础模型的最近图像分割方法进行的全面探索,如CLIP [71]、Stable Diffusion [43]、DINO [56]/DINOv2 [57]、SAM [49]和LLMs/MLLMs [72]。

2.1语义分割

2.1.1基于CLIP

CLIP微调:

CATSeg [153]引入了基于成本聚合的框架,即使在完全微调后也能保持CLIP的零样本能力。OTSeg [154]通过利用多个文本提示的集成并引入多提示sinkhorn注意力来改善多模态对齐。ZegCLIP [155]、LDVC [156]和ZegOT [157]使用参数高效的提示调优技术来转移CLIP。

SemiVL 采用部分调优策略,仅调优自注意力层的参数。

知识蒸馏(KD):用于转移基础模型的能力

2.1.2基于DM

这里对DM有一个初步的了解

DM指的是Diffusion Model,扩散模型,是一种生成模型,通过逐步去除数据中的随机噪声,从而逐步构建出有意义的数据样本。

DM模型从生成任务到语义分割领域的应用也越来越受到关注。

2.1.3基于DINO

DINO模型是基于自监督学习的视觉模型,旨在从大规模数据集中学习丰富的视觉特征。

2.1.4基于SAM

SAM模型相对比较熟悉,前段时间做过的VOS竞赛,用的是SAM2模型,给出掩码在视频中分割

CLIP在语义理解方面表现出色,而SAM和DINO则擅长空间理解。有许多改进的模型,充分利用了二者的特点,进行了结合。

2.2实例分割

2.2.1 基于CLIP

CLIP在实现开放词汇实例分割中发挥了重要作用

2.2.2 基于DM

DMs在实例分割中通过促进生成具有准确标签的大规模训练数据集发挥了关键作用。

2.2.3 基于DINO

无监督实例分割。它们通常采用两阶段的发现和学习过程:通过递归应用归一化切割[100]等方法从DINO特征中发现多个对象掩码,然后利用这些掩码作为伪标签训练实例分割模型。

2.2.4 基于FMs

通过将实例的边界框作为提示输入,可以轻松地将SAM直接转换为实例分割模型,这些边界框可以通过对象检测器获取,如Faster R-CNN ,Grounding DINO。Grounding DINO模型在我们做Omnilabel竞赛的时候有接触过。

2.3全景分割

二、基于基础模型的交互式分割

对于这个交互式分割,我相对来说比较了解SAM模型,我们也对刚开源的SAM2模型进行过推理,也真正地有过交互,就是可以添加自己想要分割的目标物体,但是目前我只尝试过一个或者两个目标物体,,三个及以上还没有试过

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 视频素材网站无水印的有哪些?热门视频素材网站分享!
  • 文心快码帮你解大厂面试题:一次请求从浏览器进入到Sping框架的服务,整个请求的生命周期是什么?
  • HTB-lgnition(curl工具、yakit、 弱口令)
  • Git —— 2、配置本地与远程免密仓库免密访问、实操创建本地仓库与上github新仓库关联
  • stm32之硬件I2C读写MPU6050陀螺仪、加速度传感器应用案例
  • 2024杭电6
  • Spring之整合Mybatis底层源码解析
  • 万字文档带你走进Python的世界
  • 一图打尽C++内存分区(分段)
  • 力扣9.2
  • World of Warcraft [CLASSIC][80][Grandel]Sapphire Hive Drone
  • Nvidia股价前景引投资者情绪波动:杠杆ETF数据透视市场风向
  • k8s集群搭建
  • 工业软件架构4:(QT和C++实现)
  • 二十五、go语言的通道
  • ES6指北【2】—— 箭头函数
  • 【159天】尚学堂高琪Java300集视频精华笔记(128)
  • android图片蒙层
  • CentOS6 编译安装 redis-3.2.3
  • ES6系列(二)变量的解构赋值
  • Java Agent 学习笔记
  • javascript 总结(常用工具类的封装)
  • Java多态
  • magento 货币换算
  • MySQL用户中的%到底包不包括localhost?
  • Python爬虫--- 1.3 BS4库的解析器
  • React 快速上手 - 06 容器组件、展示组件、操作组件
  • ReactNativeweexDeviceOne对比
  • thinkphp5.1 easywechat4 微信第三方开放平台
  • Yeoman_Bower_Grunt
  • 从setTimeout-setInterval看JS线程
  • 分享几个不错的工具
  • 简单易用的leetcode开发测试工具(npm)
  • 理清楚Vue的结构
  • 前端每日实战:61# 视频演示如何用纯 CSS 创作一只咖啡壶
  • 前端相关框架总和
  • 前端性能优化——回流与重绘
  • 实习面试笔记
  • 手机端车牌号码键盘的vue组件
  • 微信小程序开发问题汇总
  • 微信支付JSAPI,实测!终极方案
  • 异常机制详解
  • 主流的CSS水平和垂直居中技术大全
  • 交换综合实验一
  • # 20155222 2016-2017-2 《Java程序设计》第5周学习总结
  • #565. 查找之大编号
  • (11)MATLAB PCA+SVM 人脸识别
  • (13)DroneCAN 适配器节点(一)
  • (14)目标检测_SSD训练代码基于pytorch搭建代码
  • (C语言)fread与fwrite详解
  • (编程语言界的丐帮 C#).NET MD5 HASH 哈希 加密 与JAVA 互通
  • (二)正点原子I.MX6ULL u-boot移植
  • (四)linux文件内容查看
  • (四十一)大数据实战——spark的yarn模式生产环境部署
  • (幽默漫画)有个程序员老公,是怎样的体验?