当前位置: 首页 > news >正文

ER论文阅读-Decoupled Multimodal Distilling for Emotion Recognition

基本介绍:CVPR, 2023, CCF-A

原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Decoupled_Multimodal_Distilling_for_Emotion_Recognition_CVPR_2023_paper.pdf

Abstract

        多模态情感识别(MER)旨在通过语言、视觉和听觉模态感知人类情感。尽管先前的MER方法表现出色,但多模态固有的异质性仍然是一个挑战,不同模态的贡献差异显著。在本研究中,我们通过提出解耦的多模态蒸馏(DMD)方法来缓解这一问题,促进灵活且自适应的跨模态知识蒸馏,旨在增强每个模态的判别性特征。具体来说,每个模态的表示被解耦为两部分,即模态无关和模态专属空间,以一种自回归的方式进行解耦。DMD使用了一个图蒸馏单元(GD-Unit)来处理每个解耦的部分,从而使每个GD能够以更加专业和有效的方式执行。GD-Unit由一个动态图组成,其中每个节点表示一个模态,每条边表示一个动态的知识蒸馏过程。这种GD范式提供了一种灵活的知识传递方式,蒸馏权重可以自动学习,从而实现多样化的跨模态知识传递模式。实验结果表明,DMD在性能上持续优于最先进的MER方法。可视化结果显示,DMD中的图边在模态无关-专属特征空间上展现了有意义的分布模式。

Introduction

        多模态情感识别(MER)旨在通过视频片段感知人类的情感态度。视频流包含来自多种模态的时间序列数据,例如语言、声音和视觉。这种丰富的多模态性使我们能够从协同的角度理解人类行为和意图。近年来,MER已成为情感计算领域最活跃的研究课题之一,拥有诸多吸引人的应用,如智能辅导系统、产品反馈评估和机器人技术。

        对于MER,同一视频片段中的不同模态通常是互补的,能够提供额外的线索,用于语义和情感的消歧。MER的核心部分是多模态表示学习和融合,即模型旨在编码和整合来自多种模态的表示,以理解原始数据背后的情感。尽管主流MER方法取得了显著成果,但不同模态之间的固有异质性仍然困扰我们,增加了稳健多模态表示学习的难度。不同的模态(如图像、语言和声音)在传递语义信息时采用不同的方式。通常,语言模态由有限的转录文本组成,其语义比非语言行为更为抽象。如图1(a)所示,语言在MER中发挥着最重要的作用,而模态之间的固有异质性导致了不同模态在性能上的显著差异。

        减轻显著模态异质性的一种方法是将强模态中的可靠且可推广的知识蒸馏到弱模态中。如图1(b)所示,然而,手动分配蒸馏方向或权重可能非常繁琐,因为存在多种潜在的组合方式。因此,模型应根据不同的示例自动学习调整蒸馏方向,例如,许多情感更容易通过语言识别,而有些情感则更容易通过视觉识别。此外,不同模态间的显著特征分布不匹配,使得直接的跨模态蒸馏效果不佳。

        为此,我们提出了一种解耦的多模态蒸馏(DMD)方法,用于学习模态间的动态蒸馏,如图1(c)所示。通常,每个模态的特征通过共享编码器和私有编码器分别解耦为模态无关/专属空间。为了实现特征解耦,我们设计了一种自回归机制,预测解耦后的模态特征,并对其进行自监督回归。为了巩固特征解耦,我们引入了一种边界损失,用于规范模态和情感之间表示关系的接近度。因此,解耦的图蒸馏(GD)范式减少了从异质数据中吸收知识的负担,并使每个GD能够以更专业和有效的方式执行。

        基于解耦的多模态特征空间,DMD在每个空间中使用一个图蒸馏单元(GD-Unit),以便跨模态知识蒸馏可以以更加专业和有效的方式进行。GD-Unit由一个图组成,其中(1)节点代表模态中的表示或分类结果,(2)边表示知识蒸馏的方向和权重。由于模态无关(同质)特征之间的分布差距被充分缩小,GD可以直接应用于捕捉模态间的语义关联。对于模态专属(异质)特征,我们利用多模态Transformer构建语义对齐并弥合分布差距。多模态Transformer中的跨模态注意机制强化了多模态表示,并减少了不同模态中存在的高级语义概念之间的差异。为了简化,我们分别将解耦多模态特征上的蒸馏命名为同质图知识蒸馏(HomoGD)和异质图知识蒸馏(HeteroGD)。这一重新定义使我们能够明确探索每个解耦空间中不同模态之间的相互作用。

        本研究的贡献可以总结为以下几点:

  1. 我们提出了一种解耦的多模态蒸馏框架,即解耦的多模态蒸馏(DMD),用于学习模态间的动态蒸馏,以实现稳健的多模态情感识别。在DMD中,我们明确将多模态表示解耦为模态无关/专属空间,以便在这两个解耦空间上进行知识蒸馏。DMD提供了一种灵活的知识传递方式,蒸馏的方向和权重可以自动学习,从而实现灵活的知识传递模式。
  2. 我们在公开的MER数据集上进行了全面的实验,取得了优于或与最先进方法相当的结果。可视化结果验证了DMD的可行性,且图边展示了与HomoGD和HeteroGD相关的有意义的分布模式。


 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • CV之OCR:GOT-OCR2.0的简介、安装和使用方法、案例应用之详细攻略
  • (学习总结)STM32CubeMX HAL库 学习笔记撰写心得
  • 微服务漏洞最小化:CKS考试核心实践指南
  • 深度学习后门攻击分析与实现(一)
  • “滑动窗口”思想在算法里面的应用
  • JavaWeb--纯小白笔记04:Tomcat整合IDEA
  • 解决 TortoiseGitPlink Fatal Error:深入解析
  • 【QT】系统-下
  • MacOS升级Ruby版本的完整指南
  • 基于机器学习的区域能源生产与消费的分析与预测系统实现,前端layui,后端flask,可视化echarts
  • Vue的指令v-model的原理
  • Python中的null是什么?
  • MySQL 及 SQL 注入
  • 全国及分(31个)省全社会就业人数(1978-2022年)
  • 重学设计模式,【结构型】装饰器模式
  • 《网管员必读——网络组建》(第2版)电子课件下载
  • 【EOS】Cleos基础
  • 2017届校招提前批面试回顾
  • Android开源项目规范总结
  • canvas实际项目操作,包含:线条,圆形,扇形,图片绘制,图片圆角遮罩,矩形,弧形文字...
  • Linux快速配置 VIM 实现语法高亮 补全 缩进等功能
  • maven工程打包jar以及java jar命令的classpath使用
  • Mysql5.6主从复制
  • quasar-framework cnodejs社区
  • SegmentFault 社区上线小程序开发频道,助力小程序开发者生态
  • Vultr 教程目录
  • 搞机器学习要哪些技能
  • 实战:基于Spring Boot快速开发RESTful风格API接口
  • 我的业余项目总结
  • 硬币翻转问题,区间操作
  • 资深实践篇 | 基于Kubernetes 1.61的Kubernetes Scheduler 调度详解 ...
  • ​2021半年盘点,不想你错过的重磅新书
  • # Redis 入门到精通(一)数据类型(4)
  • # 利刃出鞘_Tomcat 核心原理解析(二)
  • #VERDI# 关于如何查看FSM状态机的方法
  • (7) cmake 编译C++程序(二)
  • (Java实习生)每日10道面试题打卡——JavaWeb篇
  • (超详细)2-YOLOV5改进-添加SimAM注意力机制
  • (初研) Sentence-embedding fine-tune notebook
  • (二)构建dubbo分布式平台-平台功能导图
  • (附源码)ssm经济信息门户网站 毕业设计 141634
  • (三)c52学习之旅-点亮LED灯
  • (五)c52学习之旅-静态数码管
  • .class文件转换.java_从一个class文件深入理解Java字节码结构
  • .net core 调用c dll_用C++生成一个简单的DLL文件VS2008
  • .NET MVC第五章、模型绑定获取表单数据
  • /etc/X11/xorg.conf 文件被误改后进不了图形化界面
  • @FeignClient 调用另一个服务的test环境,实际上却调用了另一个环境testone的接口,这其中牵扯到k8s容器外容器内的问题,注册到eureka上的是容器外的旧版本...
  • @Transactional 竟也能解决分布式事务?
  • [ 手记 ] 关于tomcat开机启动设置问题
  • [2009][note]构成理想导体超材料的有源THz欺骗表面等离子激元开关——
  • [ASP.NET MVC]Ajax与CustomErrors的尴尬
  • [BFS广搜]迷阵
  • [BROADCASTING]tensor的扩散机制
  • [BZOJ 4129]Haruna’s Breakfast(树上带修改莫队)