当前位置: 首页 > news >正文

CLIP扩展

Audio CLIP:Extend CLIP to Image,Text and Audio(语音)

在已有的image、text 的基础上又加上了audio语音模态。

找了一些视频,有视频帧(图像)、文本、语音三种模态的信息,仿照CLIP的模型结构。三种模态两两配对(对角线为正样本对)。最后将三个损失函数相加来更新模型参数。最后可以zero-shot 的做语音分类任务。

point CLIP:Point Cloud Understanding by CLIP(3D)CVPR2021

3D的数据集较小,难以学到很好的表征。如何把CLIP学到的非常好的2D的表征迁移到3D领域?关键就在于找一个2D和3D的“桥梁”。

作者将3D点图以不同角度投影到2D深度图上,前边CLIPpasso讲过,由于CLIP模型在特别大的数据集上预训练,因此对各种风格的RGB图像都能提取很好的特征,这里的2D深度图也不例外。

Depth CLIP:Can Language Understand Depth ?(深度信息)CVPR2022

CLIP对物体非常敏感,例如篮球、足球、飞机,CLIP模型是一定可以提取很好的特征,不论是分割还是检测任务都能做的很好。但是对于一些抽象的概念,CLIP模型的表现可能就差强人意。因为对比学习的方式可能确实不适合学一个概念。

与其把深度估计看成一个回归问题,不如将其看成一个分类问题。强制性的把深度距离(抽象概念)分成几个大类(giant 、close、…、 far、unseen七个类)。

        CLIP模型改动的三点

1.改动最小,目前的图像和文本经过CLIP的预训练模型(CLIP预训练数据集比较大,直接使用预训练的参数非常好),得到一个特别好的特征。然后用这个特征做一下点乘或拼接(融合),之前的模型不动,用一个更好的特征加强之前模型的训练。

2.知识蒸馏,将CLIP模型作为teacher网络,生成伪标签。帮助现有的模型收敛更快。

3.不借鉴CLIP的预训练参数,而是借用CLIP这种多模态的对比学习思想(图像文本对,对角线GT)。然后用在自己的任务中,定义自己的正负样本对,然后去算多模态对比学习loss。

参考:CLIP 改进工作串讲(下)【论文精读】_哔哩哔哩_bilibili

论文下载:http://arxiv.org/abs/2107.06383

http://arxiv.org/abs/2106.13043

http://arxiv.org/abs/2112.02413

http://arxiv.org/abs/2207.01077

相关文章:

  • 从一维卷积、因果卷积(Causal CNN)、扩展卷积(Dilation CNN) 到 时间卷积网络 (TCN)
  • 高等数学(第七版)同济大学 习题8-2 个人解答
  • [HJ56 完全数计算]
  • 【nlp】天池学习赛-新闻文本分类-机器学习
  • 机器人系统,如何快速算法开发与原型机验证?
  • 调用静态方法
  • Vue的生命周期详解
  • 机器人控制算法九之机器人建模(XML)、工作场景Scances建模(VRML)
  • 【Unity3D日常开发】Unity3D中打包WEBGL后读取本地文件数据
  • 【SDS V6 专题】开放内容平台,XOCP 助力数据常青
  • 鲜花绿植学生网页设计模板 静态HTML鲜花学生网页作业成品 DIV CSS网上鲜花植物主题静态网页
  • 国庆在家没事干?教大家用Python做一个任何视频都能看的软件, 当然,只能看正经的
  • NumPy数据分析基础:NumPy特性以及Python内置数据结构对比详解
  • (附源码)ssm学生管理系统 毕业设计 141543
  • Java8的新特性
  • HTTP中GET与POST的区别 99%的错误认识
  • in typeof instanceof ===这些运算符有什么作用
  • Koa2 之文件上传下载
  • LeetCode29.两数相除 JavaScript
  • npx命令介绍
  • PHP 的 SAPI 是个什么东西
  • Yii源码解读-服务定位器(Service Locator)
  • 持续集成与持续部署宝典Part 2:创建持续集成流水线
  • 关于Java中分层中遇到的一些问题
  • 小程序、APP Store 需要的 SSL 证书是个什么东西?
  • 一份游戏开发学习路线
  • 用Visual Studio开发以太坊智能合约
  • #Linux杂记--将Python3的源码编译为.so文件方法与Linux环境下的交叉编译方法
  • (16)Reactor的测试——响应式Spring的道法术器
  • (17)Hive ——MR任务的map与reduce个数由什么决定?
  • (2)STM32单片机上位机
  • (2022 CVPR) Unbiased Teacher v2
  • (4.10~4.16)
  • (html转换)StringEscapeUtils类的转义与反转义方法
  • (实战篇)如何缓存数据
  • .NET3.5下用Lambda简化跨线程访问窗体控件,避免繁复的delegate,Invoke(转)
  • .net反混淆脱壳工具de4dot的使用
  • .sh文件怎么运行_创建优化的Go镜像文件以及踩过的坑
  • /etc/fstab 只读无法修改的解决办法
  • @for /l %i in (1,1,10) do md %i 批处理自动建立目录
  • [ C++ ] STL---string类的使用指南
  • [ vulhub漏洞复现篇 ] Grafana任意文件读取漏洞CVE-2021-43798
  • [2017][note]基于空间交叉相位调制的两个连续波在few layer铋Bi中的全光switch——
  • [20171101]rman to destination.txt
  • [383] 赎金信 js
  • [Android] Implementation vs API dependency
  • [AR Foundation] 人脸检测的流程
  • [AutoSar]BSW_OS 02 Autosar OS_STACK
  • [AutoSar]工程中的cpuload陷阱(三)测试
  • [C++]——带你学习类和对象
  • [CareerCup] 17.8 Contiguous Sequence with Largest Sum 连续子序列之和最大
  • [GN] Vue3快速上手1
  • [Golang]K-V存储引擎的学习 从零实现 (RoseDB mini版本)
  • [HNOI2015]实验比较
  • [java刷算法]牛客—剑指offer链表有环的入口、反转链表、合并排序链表