当前位置: 首页 > news >正文

论文阅读--ViLD

现在的目标检测数据集,标注的类别都很有限,如图中的base categories,只能检测出toy而不能检测出细分类别,能不能在现有数据集的基础上,不额外打标注,就能直接检测细分物体?

 

(a)有监督的baseline方法:mask RCNN,第一阶段出一些region proposal,第二阶段根据N个proposal,经过一个detection head得到embeddings,最好通过分类头得到这些bonding box是什么类

(b)ViLD的text部分:利用CLIP处理文本的方法(冻结)得到文本特征,其中文本的标签是基础类也就是base categories,最后图像特征和文本特征点乘算相似度当作logits,back ground是背景类,有专门的网络进行embedding

(c)ViLD的image部分:CLIP已经够好了,所以希望这边图像编码器输出的region embedding能尽可能的跟CLIP输出的图像embedding一致就好了。利用知识蒸馏,把图像编码器得到的bonding box做一些resize操作,扔给CLIP预训练好的image encoder(冻结),得到图像特征,当作teacher网络,student则是mask RCNN。值得注意的是为了节省开销,ViLD-image中的proposal是预训练好的,可以放在内存中训练时直接用,而text中的proposal是实时出来的

相关文章:

  • 力扣226. 翻转二叉树(DFS的两种思路)
  • 开源模型应用落地-模型量化-Qwen1.5-7B-Chat-GPTQ-Int8(一)
  • 初见flyway
  • MongoDB 和 MySQL 的对比
  • Flutter 页面布局 Flex Expanded弹性布局
  • 谷歌上架,个人号比企业号好上?“14+20”封测如何解决,你知道了吗
  • 基于RV1126的AI网络摄像机AHD、CVBS、HDMI接口的区别有哪些?支持8路AHD摄像头,支持AI实时分析
  • Python-温故知新
  • 2024上海国际化工自动化仪器仪表展览会
  • 数据结构_栈在括号匹配中的应用_代码
  • 使用位掩码的权限设计
  • 前端实现打印功能
  • Nginx(负载均衡,反向代理)
  • [实用技巧]Unity中,Sprite和SpriteRenderer的实用小贴士
  • 汽车标定技术(二十一)--英飞凌TC3xx的OLDA怎么玩?(2)
  • 【译】React性能工程(下) -- 深入研究React性能调试
  • 2017 前端面试准备 - 收藏集 - 掘金
  • C++入门教程(10):for 语句
  • es6
  • GDB 调试 Mysql 实战(三)优先队列排序算法中的行记录长度统计是怎么来的(上)...
  • Java知识点总结(JDBC-连接步骤及CRUD)
  • Laravel 菜鸟晋级之路
  • Laravel 实践之路: 数据库迁移与数据填充
  • Mysql优化
  • NLPIR语义挖掘平台推动行业大数据应用服务
  • RedisSerializer之JdkSerializationRedisSerializer分析
  • SpingCloudBus整合RabbitMQ
  • tab.js分享及浏览器兼容性问题汇总
  • TiDB 源码阅读系列文章(十)Chunk 和执行框架简介
  • 道格拉斯-普克 抽稀算法 附javascript实现
  • 离散点最小(凸)包围边界查找
  • 面试总结JavaScript篇
  • 我的面试准备过程--容器(更新中)
  • 异步
  • 用 vue 组件自定义 v-model, 实现一个 Tab 组件。
  • 原生Ajax
  • 转载:[译] 内容加速黑科技趣谈
  • 自动记录MySQL慢查询快照脚本
  • HanLP分词命名实体提取详解
  • Salesforce和SAP Netweaver里数据库表的元数据设计
  • ​ 轻量应用服务器:亚马逊云科技打造全球领先的云计算解决方案
  • ​软考-高级-信息系统项目管理师教程 第四版【第23章-组织通用管理-思维导图】​
  • (28)oracle数据迁移(容器)-部署包资源
  • (C语言)strcpy与strcpy详解,与模拟实现
  • (Matalb时序预测)WOA-BP鲸鱼算法优化BP神经网络的多维时序回归预测
  • (STM32笔记)九、RCC时钟树与时钟 第一部分
  • (博弈 sg入门)kiki's game -- hdu -- 2147
  • (附源码)ssm捐赠救助系统 毕业设计 060945
  • (转)C#调用WebService 基础
  • (转)Linq学习笔记
  • .FileZilla的使用和主动模式被动模式介绍
  • .net core + vue 搭建前后端分离的框架
  • .NET NPOI导出Excel详解
  • .Net 基于MiniExcel的导入功能接口示例
  • .net6 当连接用户的shell断掉后,dotnet会自动关闭,达不到长期运行的效果。.NET 进程守护