当前位置: 首页 > news >正文

[RIS]GRES: Generalized Referring Expression Segmentation

1. BaseInfo

TitleGRES: Generalized Referring Expression Segmentation
Adresshttps://arxiv.org/pdf/2306.00968
Journal/TimeCVPR2023
Author南洋理工
Codehttps://github.com/henghuiding/ReLA
Read20240829
TableVisonLanguage

2. Creative Q&A

  1. 考虑结果多目标和无目标,基于 Mask2Former,能够指向任意数量的目标类别
    在这里插入图片描述
  2. 数据集 gRefCOCO 构建,包含单目标、多目标和无目标。
  3. ReLA

3. Concrete

在这里插入图片描述
主要是多目标和无目标的改进。
prediction : 图像、文本、GT Mask、预测结果、有无目标。

        out = {'pred_logits': predictions_class[-1], # [B, Q, num_classes + 1]'pred_masks': tgt_mask, # [ B, num_classes + 1, H/4, W/4]'all_masks': outputs_mask,'nt_label': nt_label # [B, 2]}

3.1. Model

arch
将视觉和语言特征输入 ReLA 模块。
在这里插入图片描述

3.1.1. Input

图片+文本

3.1.2. Backbone

Swin-Transformer + BERT

3.1.3. Neck

3.1.4. Decoder

在 RelA 后就是很简单的 MLP

3.1.5. Loss

交叉熵损失

3.2. Training

3.2.1 Dataset

RefCOCO
RefCOCO+
G-Ref
gRefCOCO

3.3. Eval

cumulative IoU (cIoU) and Precision@X (Pr@X), we further introduce No-target accuracy (N-acc.), Target accuracy (T-acc.), and generalized IoU (gIoU) for GRES.

  1. 在 gRefCOCO 上的
    在这里插入图片描述

3.4. Ablation

  1. 数据集的必要性
  2. RIA 和 RLA 的必要性
  3. P 的数量 10 最佳

4. Reference

RES 系列 GRES: Generalized Referring Expression Segmentation 论文阅读笔记

5. Additional

有点吃显存。
简单读一下,后面 ReLA 还是没怎么看懂。后面再结合代码读的时候再详细写吧…

相关文章:

  • JAVA中如何使用反射获取数组元素类型
  • [论文笔记] megatron 大模型超参搜索pipeline
  • 【练习】哈希表的使用
  • Python切片技巧,带你轻松提取数组子集!
  • NeRF笔记
  • SpringBoot 基于iText 根据PDF模板动态生成文件
  • OSError: [E050] Can‘t find model ‘en_core_web_sm‘.
  • Python爬虫(一文通)
  • OverflowError: cannot convert float infinity to integer
  • Golang使用Quic-Go开源库实现Quic客户端和服务端
  • 企业数据治理之主数据---供应商主数据
  • Java核心API——io类缓冲流
  • 什么是杨氏模量
  • 22AP10 SS524 平替 海思HI3521DV200 可提供开发资料
  • IP-RDS-222、IP-PRZ-59-AM12、EG-TRZ-42-L、EG-TRZ-42-H比例减压阀放大器
  • 08.Android之View事件问题
  • Android优雅地处理按钮重复点击
  • Debian下无root权限使用Python访问Oracle
  • Hexo+码云+git快速搭建免费的静态Blog
  • node和express搭建代理服务器(源码)
  • Spring Cloud Alibaba迁移指南(一):一行代码从 Hystrix 迁移到 Sentinel
  • 第三十一到第三十三天:我是精明的小卖家(一)
  • 湖南卫视:中国白领因网络偷菜成当代最寂寞的人?
  • 基于Javascript, Springboot的管理系统报表查询页面代码设计
  • 七牛云 DV OV EV SSL 证书上线,限时折扣低至 6.75 折!
  • 前端临床手札——文件上传
  • 前端性能优化——回流与重绘
  • 提升用户体验的利器——使用Vue-Occupy实现占位效果
  • 跳前端坑前,先看看这个!!
  • Salesforce和SAP Netweaver里数据库表的元数据设计
  • #Datawhale X 李宏毅苹果书 AI夏令营#3.13.2局部极小值与鞍点批量和动量
  • (¥1011)-(一千零一拾一元整)输出
  • (2024,LoRA,全量微调,低秩,强正则化,缓解遗忘,多样性)LoRA 学习更少,遗忘更少
  • (HAL)STM32F103C6T8——软件模拟I2C驱动0.96寸OLED屏幕
  • (动态规划)5. 最长回文子串 java解决
  • (独孤九剑)--文件系统
  • (二十五)admin-boot项目之集成消息队列Rabbitmq
  • (附源码)ssm高校升本考试管理系统 毕业设计 201631
  • (附源码)ssm高校实验室 毕业设计 800008
  • (剑指Offer)面试题41:和为s的连续正数序列
  • (篇九)MySQL常用内置函数
  • (四)鸿鹄云架构一服务注册中心
  • (一)ClickHouse 中的 `MaterializedMySQL` 数据库引擎的使用方法、设置、特性和限制。
  • (原创)攻击方式学习之(4) - 拒绝服务(DOS/DDOS/DRDOS)
  • (转)c++ std::pair 与 std::make
  • (转)iOS字体
  • (转)Linux下编译安装log4cxx
  • (转)机器学习的数学基础(1)--Dirichlet分布
  • .Net 6.0--通用帮助类--FileHelper
  • .NET 8 跨平台高性能边缘采集网关
  • .NET Core 中的路径问题
  • .NET Standard / dotnet-core / net472 —— .NET 究竟应该如何大小写?
  • .NET 使用 XPath 来读写 XML 文件
  • .NET基础篇——反射的奥妙
  • @RequestMapping处理请求异常