当前位置：首页 > news >正文

CLIP扩展

news 来源：原创 2024/5/3 20:36:09

Audio CLIP:Extend CLIP to Image,Text and Audio（语音）

在已有的image、text 的基础上又加上了audio语音模态。

找了一些视频，有视频帧（图像）、文本、语音三种模态的信息，仿照CLIP的模型结构。三种模态两两配对（对角线为正样本对）。最后将三个损失函数相加来更新模型参数。最后可以zero-shot 的做语音分类任务。

point CLIP:Point Cloud Understanding by CLIP（3D）CVPR2021

3D的数据集较小，难以学到很好的表征。如何把CLIP学到的非常好的2D的表征迁移到3D领域？关键就在于找一个2D和3D的“桥梁”。

作者将3D点图以不同角度投影到2D深度图上，前边CLIPpasso讲过，由于CLIP模型在特别大的数据集上预训练，因此对各种风格的RGB图像都能提取很好的特征，这里的2D深度图也不例外。

Depth CLIP：Can Language Understand Depth ?（深度信息）CVPR2022

CLIP对物体非常敏感，例如篮球、足球、飞机，CLIP模型是一定可以提取很好的特征，不论是分割还是检测任务都能做的很好。但是对于一些抽象的概念，CLIP模型的表现可能就差强人意。因为对比学习的方式可能确实不适合学一个概念。

与其把深度估计看成一个回归问题，不如将其看成一个分类问题。强制性的把深度距离（抽象概念）分成几个大类（giant 、close、…、 far、unseen七个类）。

CLIP模型改动的三点

1.改动最小，目前的图像和文本经过CLIP的预训练模型（CLIP预训练数据集比较大，直接使用预训练的参数非常好），得到一个特别好的特征。然后用这个特征做一下点乘或拼接（融合），之前的模型不动，用一个更好的特征加强之前模型的训练。

2.知识蒸馏，将CLIP模型作为teacher网络，生成伪标签。帮助现有的模型收敛更快。

3.不借鉴CLIP的预训练参数，而是借用CLIP这种多模态的对比学习思想（图像文本对，对角线GT）。然后用在自己的任务中，定义自己的正负样本对，然后去算多模态对比学习loss。

参考：CLIP 改进工作串讲（下）【论文精读】_哔哩哔哩_bilibili

论文下载：http://arxiv.org/abs/2107.06383

http://arxiv.org/abs/2106.13043

http://arxiv.org/abs/2112.02413

http://arxiv.org/abs/2207.01077

从一维卷积、因果卷积(Causal CNN)、扩展卷积(Dilation CNN) 到时间卷积网络 (TCN)

高等数学（第七版）同济大学习题8-2 个人解答

[HJ56 完全数计算]

【nlp】天池学习赛-新闻文本分类-机器学习

机器人系统，如何快速算法开发与原型机验证？

调用静态方法

Vue的生命周期详解

机器人控制算法九之机器人建模（XML）、工作场景Scances建模（VRML）

【Unity3D日常开发】Unity3D中打包WEBGL后读取本地文件数据

【SDS V6 专题】开放内容平台，XOCP 助力数据常青

鲜花绿植学生网页设计模板静态HTML鲜花学生网页作业成品 DIV CSS网上鲜花植物主题静态网页

国庆在家没事干？教大家用Python做一个任何视频都能看的软件，当然，只能看正经的

NumPy数据分析基础：NumPy特性以及Python内置数据结构对比详解

（附源码）ssm学生管理系统毕业设计 141543

Java8的新特性

HTTP中GET与POST的区别 99%的错误认识

in typeof instanceof ===这些运算符有什么作用

Koa2 之文件上传下载

LeetCode29.两数相除 JavaScript

npx命令介绍

PHP 的 SAPI 是个什么东西

Yii源码解读－服务定位器（Service Locator）

持续集成与持续部署宝典Part 2：创建持续集成流水线

关于Java中分层中遇到的一些问题

小程序、APP Store 需要的 SSL 证书是个什么东西？

一份游戏开发学习路线

用Visual Studio开发以太坊智能合约

#Linux杂记--将Python3的源码编译为.so文件方法与Linux环境下的交叉编译方法

（16）Reactor的测试——响应式Spring的道法术器

(17)Hive ——MR任务的map与reduce个数由什么决定？

（2）STM32单片机上位机

(2022 CVPR) Unbiased Teacher v2

（4.10~4.16）

(html转换)StringEscapeUtils类的转义与反转义方法

（实战篇）如何缓存数据

.NET3.5下用Lambda简化跨线程访问窗体控件,避免繁复的delegate,Invoke(转)

.net反混淆脱壳工具de4dot的使用

.sh文件怎么运行_创建优化的Go镜像文件以及踩过的坑

/etc/fstab 只读无法修改的解决办法

@for /l %i in (1,1,10) do md %i 批处理自动建立目录

[ C++ ] STL---string类的使用指南

[ vulhub漏洞复现篇 ] Grafana任意文件读取漏洞CVE-2021-43798

[2017][note]基于空间交叉相位调制的两个连续波在few layer铋Bi中的全光switch——

[20171101]rman to destination.txt

[383] 赎金信 js

[Android] Implementation vs API dependency

[AR Foundation] 人脸检测的流程

[AutoSar]BSW_OS 02 Autosar OS_STACK

[AutoSar]工程中的cpuload陷阱（三）测试

[C++]——带你学习类和对象

[CareerCup] 17.8 Contiguous Sequence with Largest Sum 连续子序列之和最大

[GN] Vue3快速上手1

[Golang]K-V存储引擎的学习从零实现（RoseDB mini版本）

[HNOI2015]实验比较

[java刷算法]牛客—剑指offer链表有环的入口、反转链表、合并排序链表

Audio CLIP:Extend CLIP to Image,Text and Audio（语音）

point CLIP:Point Cloud Understanding by CLIP（3D）CVPR2021

Depth CLIP：Can Language Understand Depth ?（深度信息）CVPR2022

相关文章：