当前位置：首页 > news >正文

【多模态融合】【NeurIPS 2021】Attention Bottlenecks for Multimodal Fusion

news 来源：原创 2024/9/20 4:03:08

Attention Bottlenecks for Multimodal Fusion
多模态融合的注意力瓶颈
NeurIPS’2021

论文链接
代码链接
在这里插入图片描述

摘要

人类通过同时处理和融合来自视觉和音频等多种模态的高维输入来感知世界。与之形成鲜明对比的是，机器感知模型通常是模态特定的，并且针对单模态基准进行了优化，因此来自每个模态的最终表示或预测的后期融合（“后期融合”）仍然是多模态视频分类的主导范例。相反，我们引入了一种新颖的基于Transformer model的架构，该架构使用“融合瓶颈”进行多层模态融合。与传统的成对自我注意相比，我们的模型迫使不同模态之间的信息通过少量的瓶颈潜伏，要求模型整理和浓缩每个模态中的相关信息，并分享必要的信息。我们发现这种策略提高了融合性能，同时降低了计算成本。我们进行彻底的消融研究，并在包括Audioset、Epic-Kitchens和VGGSound在内的多个视听分类基准上取得了最先进的结果。所有代码和模型都将被发布。

1.引言

同时的多模态感觉是人类知觉学习的重要推动者[50]。然而，对于人工学习系统来说，由于许多因素，为模态融合设计统一模型是具有挑战性的：（i）模态之间学习动态的变化 [56]，（ii）不同的噪声拓扑，一些模态流比其他模态流包含更多的任务信息，以及（iii）专门的输入表示。音频和视觉之间的输入表示差异尤其明显——许多最先进的音频分类方法依赖于短期傅立叶分析来产生log-mel频谱图，通常将它们用作为图像设计的CNN架构的输入[26, 48]。这些时间-频率表示对图像具有不同的分布——多个声学对象可以具有相同频率的能量，并且CNN的平移不变性可能不再是期望的属性（虽然声学对象可以在时间上移位，但频率的移位可能会完全改变含义）。相比之下，视频中的视觉流是三维的（两个空间和一个时间），并且虽然图像的不同空间区域对应于不同对象，但存在跨多个帧的高冗余的独特挑战。因此，对于不同的模态，输入表示以及因此神经网络架构和基准往往会有很大的不同。因此，为了简单起见，多模态融合的主要范例通常由一种特别方案组成，该方案涉及通过输出表示或分数集成独立的音频和视频网络，即“后期融合”[22,44]。

在这项工作中，我们提出了一个新的基于Transformer model的视频视听融合模型。尽管最初是为NLP任务提出的，但最近人们对transformers[54]作为通用感知模型[29]产生了兴趣，因为它们能够模拟标记之间的密集相关性，同时对它们的输入做出很少的假设（并且因为连续的感知输入可以被标记化）。通过将密集的连续信号分成块（patches）并对其进行展平到1D的token。Transformer已被证明在图像（ViT[16]）和视频分类（ViViT[6]）以及最近的音频分类（AST[23]）方面具有竞争力。因为这些模型能够优雅地处理可变长度序列，所以自然的第一个扩展是将视觉和听觉patches的序列馈送到Transformer model，而对架构的改变最小。这种“早期融合”模型允许注意力在图像中的不同空间和时间区域之间自由流动，以及在音频频谱图中跨频率和时间流动。虽然理论上很吸引人，但我们假设模型所有层的完全成对注意力是不必要的，因为音频和视频输入包含密集、细粒度的信息，其中大部分是冗余的。对于视频来说尤其如此，如[6]的“因式分解”版本的性能所示。由于成对注意力与token序列长度的二次复杂性，这种模型也不能很好地扩展到更长的视频。为了缓解这一点，我们提出了两种方法来限制模型中的注意力流动。第一个来自多模态学习中的一个常见范例，即将跨模态流限制到网络的后期层，允许早期层专门学习和提取单模态模式。此后，这被称为“中间融合”（图1，中左），其中引入跨模态相互作用的层被称为“融合层”。这种情况的两个极端版本是“早期融合”（所有层都是跨模态的）和“晚期融合”（所有层都是单模态的），我们将其作为基线进行比较。我们的第二个想法（也是主要贡献）是限制层内token之间的跨模态注意力流。我们通过允许注意力在一个模态内自由流动来做到这一点，但迫使我们的模型在与另一个模态共享之前整理和“浓缩”来自每个模态的信息。核心思想是引入一小组潜在融合单元，形成“注意力瓶颈”，层内的跨模态交互必须通过该瓶颈。我们证明了这个“瓶颈”版本，我们称之为多模态瓶颈Transformer model(MBT)，优于或匹配其无限制的对应版本，但具有更低的计算成本。

具体来说，我们做出了以下贡献：（i）我们提出了一种新的视听融合架构（MBT）。我们的模型通过紧密的融合“瓶颈”限制了潜在单元之间的跨模态信息流动，这迫使模型收集和“浓缩”每个模态中最相关的输入（因此仅与其他模态共享必要的输入）。这避免了完全成对注意力的二次缩放成本，并以更少的计算导致性能增益；（ii）我们将MBT应用于图像和频谱图patches（图2），并探索与融合层、输入采样和数据大小相关的许多消融；最后（iii）我们在许多流行的视听基准上为视频分类设定了新的最先进的水平，包括AudioSet[21]、Epic-Kitchens100[12]和VGGSound[10]。在Audioset数据集上，我们比当前的技术水平高出5.9 mAP（相对提高12.7%）。

2.相关工作

视听学习

视听多模态学习有着丰富的历史，无论是在深度学习时代之前还是期间[47]。鉴于可用数据和计算资源有限，早期工作侧重于相对简单的早期阶段（例如堆叠手工设计的特征）和后期阶段（例如分数融合）技术[11]。深度学习允许更复杂的策略，其中模态特异性或联合特征被隐式学习来间接融合。这一结果使得一系列下游监督视听任务取得了重大进展[43,34,17]。在监督设置中，可以联合训练多个特定于模态的卷积网络，然后通过求和[32]或通过“横向连接”[57]组合其中间激活。在无监督环境中，视听学习通常用于学习良好的单模态表示，一种流行的预训练任务是通过对比损失同步来自不同模态的信号[4, 5, 7, 44, 30, 2, 3]，然而每个模态通常在这种设置下单独编码。

多模态Transformer

Transformer的自注意力操作提供了连接多模态信号的自然机制。多模态Transformer已经应用于各种任务，包括音频增强 [17, 53]、语音识别 [24]、图像分割[58, 53]、跨模态序列生成[39, 37, 49]、图像和视频检索 [25, 20, 8]、视觉导航[46]和图像/视频字幕/分类[41, 52, 51, 36, 28]。对于许多作品，Transformer的输入是单模态CNN的输出表示[35, 20]——与这些作品不同，我们自始至终使用Transformer model块，仅使用单个卷积层来光栅化2D patch。来自不同模态的token通常直接组合作为Transformer的输入[38]，例如，最近发布的感知器模型[29]引入了一种迭代注意力机制，该机制将级联的原始多模态信号作为输入，这对应于我们的“早期融合”基线。相比之下，我们仔细检查了不同模态融合策略的影响，包括将跨模态注意力流限制到我们模型的后期层，以及通过我们提出的多模态瓶颈Transformer model（MBT）中的瓶颈“引导”跨模态连接。

3.多模态融合Transformer

在本节中，我们描述了我们提出的多模式瓶颈Transformer model（MBT）。我们首先总结了最近提出的视觉Transformer model（ViT） [16]和音频频谱图Transformer model（AST） [23]，分别为图像和音频分类开发，在3.1.节。然后，我们描述了我们对视听融合案例的扩展。我们讨论了三种不同的令牌融合策略（第3.2节），最后讨论了整个模型中的融合路径（第3.3节），这涉及到将多模态融合限制在模型的某些层。

3.1 ViT和AST体系结构

视觉Transformer model（ViT）[16]（以及最近对音频-音频频谱图Transformer model（AST）[23]的扩展）采用了最初为自然语言处理设计的Transformer model架构[54]，以最小的变化处理2D输入。关键的见解是从RGB图像（或音频频谱图）中提取N个不重叠的patch， $x_i∈\mathbb{R}^{h × w}$ ，并将它们转换成一系列1D token $z_i∈\mathbb{R}^d$ ，如下所示：

在这里插入图片描述

这里， $\mathbf{E}$ 是将每个令牌映射到 $\mathbb{R}^d$ 的线性投影， $z_{cls}$ 是附加到该序列的特殊令牌，以便其在最后一层的表示可以传递给分类器用于分类任务[15]， $\mathbf{p} ∈ \mathbb{R}^{(N+1)×d}$ 是添加到令牌以保留位置信息的学习位置嵌入（因为所有后续的自注意力操作都是排列不变的）。

然后，令牌通过由L个Transformer model层序列组成的编码器。每个Transformer model层由多头自注意力（MSA）、层归一化（LN）和使用残差连接应用的多层感知器（MLP）块组成。我们将Transformer model层 $z^{l+1}= Transformer(z^l)$ 表示为

在这里插入图片描述

这里，MSA操作[54]计算点积注意力[54]，其中查询、键和值都是同一张量的线性投影， $MSA(\mathbf{X}) = Attention(\mathbf{W}^Q\mathbf{X}, \mathbf{W}^K\mathbf{X}, \mathbf{W}^V\mathbf{X})$ 。我们进一步定义了两个张量 $\mathbf{X}$ 和 $\mathbf{Y}$ 之间的多头交叉注意力（MCA），其中X形成查询，Y形成用于将查询重新加权为 $MCA(\mathbf{X}, \mathbf{Y}) = Attention(\mathbf{W}^Q\mathbf{X}, \mathbf{W}^K\mathbf{Y}, \mathbf{W}^V\mathbf{Y})$ 的键和值。这将在我们的多模式案例中使用，如下所述。

3.2 多模态Transformer

我们现在描述我们对多模态情况的扩展。我们首先讨论三种不同的令牌融合策略。

3.2.1 通过自注意力进行融合

我们首先描述一个“普通”融合模型，它简单地由应用于多模态输入的常规Transformer model组成。我们标记视频的方法很简单——给定一个长度为t秒的视频剪辑，我们统一采样F个RGB帧，并将音频波形转换为单个频谱图。然后，我们按照ViT[16]中提出的编码独立地嵌入每个帧和频谱图，并将所有令牌连接到单个序列中。

形式上，如果我们已经从所有F个采样帧中提取了总共 $N_v$ 个RGB patch， $x_{rgb} ∈ \mathbb{R}^{N_v×d}$ 和 $N_a$ 频谱图补丁， $x_{spec} ∈ \mathbb{R}^{N_a×d}$ ，我们的令牌序列是

在这里插入图片描述

然后，我们的多模态编码器以与上述相同的方式应用一系列Transformer model层。注意力被允许在网络中自由流动，即每个RGB令牌可以关注所有其他RGB和频谱图令牌，如下所示：具有模型参数θ的Transformer model $z^{l+1} = Transformer(z^l; θ)$ 。在这里，Transformer model指的是带有普通自注意力的标准Transformer model层。

3.2.2 具有模态特定参数的融合

我们可以通过允许每个模态有自己的专用参数 $θ_{rgb}$ 和 $θ_{spec}$ 来推广这个模型，但仍然通过注意力机制交换信息。为此，我们定义了一个跨Transformer model层：

在这里插入图片描述
其中交叉Transformer model采用广义交叉注意操作，其采用不一定重叠的两组输入 $z_1$ 和 $z_2$ 。该层遵循原始Transformer model层，不同之处在于等式2变成

在这里插入图片描述

最后，请注意，我们已经在等式5中明确定义了跨Transformer model层的参数 $θ_{rgb}$ 和 $θ_{spec}$ ，因为它们对于每个模态都是不同的。然而，当 $θ_{rgb}$ 和 $θ_{spec}$ 相等时， $θ_{rgb} = θ_{spec} = θ)$ ，等式5中定义的计算等效于3.2.1节.

3.2.3 通过注意力瓶颈进行融合

为了驯服成对注意力的二次复杂性，我们接下来将一小组B融合瓶颈令牌 $z_{fsn} = [z^1_{fsn}, z^2_{fsn}, . . . , z^B_{fsn}]$ 引入我们的输入序列（见图2）。输入序列现在是

在这里插入图片描述

在这里插入图片描述
图2：应用于视听输入的多模态融合Transformer model。输入序列由图像和频谱图patches组成。然后，这些被投影到令牌中，并附加到特殊的CLS（分类）和FSN（融合瓶颈）令牌中。然后，我们的Transformer model编码器使用自注意力来模拟单模态信息，并通过与网络多层的瓶颈令牌的交叉注意力来限制跨模态信息流。

然后，我们将模型中的所有跨模态注意力流限制为通过这些瓶颈令牌。更正式地，对于 $l$ 层，我们计算令牌表示如下：

在这里插入图片描述
在这里，i索引了每个模态，在这种情况下是RGB和Spec， $z_{rgb}$ 和 $z_{spec}$ 只能通过Transformer model层内的瓶颈 $z_{f_{sni}}$ 交换信息。我们首先创建特定于模态的临时瓶颈融合令牌： $z_{f_{sni}}$ ，它们分别用音频和视频信息同时更新（等式8）。然后在等式9中对来自每个跨模态更新的最终融合令牌进行平均。我们还试验了瓶颈令牌的非对称更新（见附录），发现这种选择的性能是稳健的。我们保持网络中瓶颈令牌的数量远小于每个模态的潜在单元总数（ $B≪N_v$ 和 $B≫N_a$ ）。因为所有跨模态的注意力流都必须通过这些单元，这些紧密的“融合”瓶颈迫使模型压缩来自每个模态的信息并共享必要的信息。正如我们在实验中所示，这增加或保持了多模态融合的性能，同时降低了计算复杂度。我们还注意到，我们的公式是模态类型和数量的通用。

3.3 融合的地方：早、中、晚

上述策略讨论了一层内的融合，在大多数Transformer model架构（如ViT）中，每一层都由一组相同的操作组成。然而，多模态学习中的一个常见范例是限制网络的早期层专注于单模态处理，并且仅在后期层引入跨模态连接。如果我们认为较低层参与处理低级特征，而较高层专注于学习语义概念，这在概念上是直观的——图像中的边缘和角落等低级视觉特征可能没有特定的声音特征，因此可能不会受益于与音频的早期融合[57]。

这可以用我们的模型实现如下：我们最初在来自Lf层的单个模态的令牌之间执行普通的自关注力。此后，我们将所有潜在令牌连接在一起，

$z^{Lf}=[z^{L_f}_{rgb}||z^{L_f}_{spec}]$ 并使它们通过剩余的 $L-L_F$ 层，在这些层中，根据3.2节融合令牌这里， $L_f=0$ 对应于“早期融合”模型， $L_f = L$ 对应于“晚期融合”模型，并且 $0<L_f<1$ 对应于“中期融合”模型。更正式地，这可以表示为

在这里插入图片描述
其中多模态Transformer model(·)可以指第3.2节中描述的3种融合策略中的任何一种。

3.4 分类

对于上述所有模型变体，我们将CLS令牌 $z^L_{cls-rgb}$ 和 $z^L_{cls-spec}$ 的输出表示传递给相同的线性分类器，并对前softmax对数进行平均。

4.实验

我们将MBT应用于视频分类的任务。在本节中，我们首先描述用于训练和测试多模态融合的数据集及其各自的评估协议（第4.1节），然后讨论实现细节（第4.2节）.然后，我们消除模型中的关键设计选择（第4.3节），然后最终将我们的模型与最先进的模型进行比较（第4.4节）.

4.1 数据集和评估方案

我们用三个视频分类数据集进行实验——AudioSet[21]、Epic-Kitchens-100[12]和VGGSound[10]，下面将更详细地描述。附录中提供了另外两个数据集Time[42]和Kinetics[31]的结果。

AudioSet

AudioSet[21]由来自YouTube的近200万个10秒视频剪辑组成，带有527个类的注释。像其他YouTube数据集一样，这是一个动态数据集（我们只使用仍然在线可用的剪辑）。这给了我们20,361个用于平衡训练集（以下称为迷你音频集或miniAS）的剪辑和18,589个用于测试集的剪辑。这个测试集与我们比较的最近的作品完全相同，包括Perceiver[29]。我们没有使用2M不平衡训练集，而是在由500K样本（AS-500K）组成的（稍微多一点）平衡子集上进行训练。详情见附录。因为每个样本都有多个标签，所以我们使用二进制交叉熵（BCE）损失进行训练，并按照标准实践报告所有类别的平均精度（mAP）。

Epic-Kitchens 100

Epic-Kitchens 100[12]由捕捉日常厨房活动的自我中心视频组成。该数据集由跨越100小时的90,000个可变长度剪辑组成。我们报告了遵循标准协议[12]的动作识别结果——每个动作标签都是动词和名词的组合，我们使用具有两个“头”的单个网络来预测两者，两者都是用交叉熵损失训练的。使用网络预测的得分最高的动词和动作对，Top-1动作准确度是主要度量。动作主要是短期的（平均长度为2.6秒，最小长度为0.25秒）。

VGGSound

VGGSound[10]包含近200K个长度为10s的视频剪辑，注释有309个声音类别，包括人类动作、发声物体和人-物体交互。与AudioSet不同，每个剪辑的声源都“直观地呈现”在视频中。在数据集创建期间，通过使用图像分类器确保了这一点。在过滤了YouTube上不再可用的剪辑后，我们最终得到了172,427个训练剪辑和14,448个测试剪辑。我们用标准交叉熵损失进行分类训练，并报告前1名和前5名分类准确率。

4.2 实施细节

我们的主干架构完全遵循ViT[16]的架构，具体来说，我们使用从ImageNet-21K[14]初始化的ViT-Base（ViT-B，L=12，NH=12，d=3072）1，但是我们注意到我们的方法与Transformer model主干无关。除非另有专门说明，否则我们在所有瓶颈融合实验中使用B=4瓶颈令牌。瓶颈令牌使用平均值为0、标准偏差为0.02的高斯初始化，类似于公共ViT[16]代码中的位置嵌入。我们随机抽取t秒的片段进行训练。所有数据集的RGB帧都以25 fps的速度提取。对于AudioSet和VGGSound，我们在长度为t的采样窗口上以长度为（t × 25）/8的均匀步幅采样8个RGB帧。我们从大小为224 × 224的每个帧中提取16 × 16个补丁，每个视频总共有8 × 14 × 14=1568个补丁。对于史诗厨房（因为片段较短），我们以步幅1采样32帧。所有数据集的音频以16kHz采样，并转换为单声道。与[23]类似，我们提取频率维度为128的对数梅尔频谱图，该频谱图使用跳变长度为10毫秒的25毫秒汉明窗口计算。这给了我们128 × 100t的输入，用于t秒的音频。提取大小为16 × 16的频谱图补丁，为8秒音频提供50 × 8=400个补丁。对于图像，我们应用 [6]中使用的标准数据增强（随机裁剪、翻转、颜色抖动），对于频谱图，我们使用SpecAugment[45]，其最大时间掩模长度为192帧，最大频率掩模长度为48个箱，遵循AST[23]。我们将基本学习率设置为0.5，并使用α=0.3的Mixup[59]和概率p=0.3的随机深度正则化[27]训练50个epoch。所有模型（跨数据集）都使用场景库在TPU加速器上以64的批量、动量为0.9的同步SGD和预热2.5个epoch的余弦学习速率计划进行训练[13]。

推断：按照标准实践，我们从剪辑中统一采样多个时间crops，并平均每次观看的logits以获得最终结果。测试crops的数量设置为4。

4.3 消融分析

在本节中，我们将研究不同架构选择对MBT的影响。除非另有说明，我们使用mini-AudioSet分割进行训练，并报告音频集评估分割的结果。更多关于主干尺寸和预训练初始化的消融可在附录中找到。

4.3.1 融合策略

我们实现了第二节中描述的所有三种融合策略。3.2：（i）普通的自注意力——一层内所有潜在单元之间不受限制的成对注意；（ii）具有单独权重的普通交叉注意：同上，但我们现在对每个模态都有单独的权重。潜在单元通过与来自两种模态的所有其他潜在单元的成对关注来更新；最后（iii）瓶颈融合：这里所有跨模态注意力都必须通过瓶颈融合潜伏。注意，这三种融合策略仅描述了层内令牌之间的注意力流。对于策略（ii）和（iii），我们还进行了实验，显示了限制跨模态注意力对固定融合层 $L_f$ 之后的层的影响。我们研究了具有不同融合层的模型， $L_f = 0, 2, 4, 6, 8, 10, 12$ ，并在图3中给出了结果。

在这里插入图片描述

图3：使用剪辑跨度 $t = 4$ 和 $B = 4$ 瓶颈令牌，使用注意力瓶颈进行融合对AudioSet上不同融合层Lf的性能（左）和计算（右）的影响。注意力瓶颈以较低的计算成本提高了性能。

共享两种模式的权重

我们首先研究共享两种模式的编码器权重的影响（策略（i）与（ii））。结果可以在附录中的图1中找到。当模态在早期层融合时，使用单独的编码器可以提高性能。对于具有后期融合层的模型，两种模型的性能相似。因此，我们使用单独的模态权重进行进一步的实验。

融合层

然后，我们研究了改变融合层 $L_f$ 对后两种策略的影响：（ii）普通交叉注意力和（iii）瓶颈融合。我们在 $L_f = 0, 2, 4, 6, 8, 10, 12$ 的情况下进行实验。我们将输入跨度 $t$ 固定为4s，将瓶颈令牌 $B$ 的数量固定为4。我们对每个实验进行3次运行，并报告平均值和标准偏差。从图3（左）可以看出，“中期融合”优于早期（ $L_f=0$ ）和晚期融合（ $L_f=12$ ），通过使用融合层 $L_f=10$ 用于普通交叉注意力和 $L_f=8$ 用于瓶颈注意力获得最佳性能。这表明，该模型受益于将跨模态连接限制到后期层，允许早期层专门学习单模态特征，但仍然受益于多层跨模态信息流。在附录D中，我们证实了在许多不同的数据集上，中期融合优于晚期融合。

注意力瓶颈

在图3中，我们还检查了瓶颈注意力与普通交叉注意力对多模态融合的影响。我们发现，对于所有的 $L_f$ 值，将流量限制到瓶颈可以提高或保持性能，在较低的 $L_f$ 值下，改善更加突出。在 $L_f=10$ 时，两者的表现相似，注意在这个阶段，我们在模型中只有3个融合层。我们表现最好的模型使用Lf=8的注意力瓶颈，我们在所有进一步的实验中修复了这一点。我们还比较了两种融合策略的计算量，以GFLOPs测量（图3，右）。使用少量瓶颈令牌（在我们的实验中B=4）比晚期融合模型增加了可以忽略不计的额外计算，计算随着融合层Lf的变化而基本保持不变。这与普通交叉融合形成对比，普通交叉融合对于其应用的每一层都具有不可忽略的计算成本。我们注意到，对于早期融合（ $L_f=0$ ），瓶颈融合优于普通交叉注意超过2个mAP，计算成本不到一半。

在这里插入图片描述
图3：使用剪辑跨度t=4和B=4瓶颈令牌，使用注意力瓶颈进行融合对AudioSet上不同融合层 $L_f$ 的性能（左）和计算（右）的影响。注意力瓶颈以较低的计算成本提高了性能。

瓶颈令牌数量B

我们用B=4、36、64、256和1024进行实验，发现性能相对一致（都在0.5 mAP以内）。因此，我们将所有实验的令牌数量固定为B=4。有趣的是，在每个跨模态层仅通过4个隐藏单元（B=4）的如此少量的跨模态连接的情况下，我们比后期融合获得了很大的性能增益（图3），突出了允许跨模态信息在模型的多个层流动的重要性。

4.3.2 输入采样和数据集大小

在本节中，我们将研究不同模态采样策略的影响。我们还与单模态基线进行了比较——仅视觉基线和仅音频基线由分别仅应用于RGB或频谱图补丁的普通transformer模型组成。

采样窗口大小t

我们基于Transformer model的模型的一个优点是我们可以容易地输入可变长度的令牌序列。我们用以下值t=2、4、6和8秒(注意，AudioSet中的所有视频都是10s)改变采样窗口t进行实验，并在图4中示出结果。在推理中，我们统一采样覆盖整个视频的多个窗口。当频谱图斑块的数量 $N_a$ 随t变化时，我们保持RGB斑块的数量 $N_v$ 通过改变帧的步幅来修复（以避免内存不足）。我们的结果表明，音频和视听融合模型的性能都随着输入跨度的增加而增加，然而纯视觉模型的性能略有下降（我们假设这是由于固定步幅的增加，这意味着在训练期间随机采样的帧更少）。我们在所有进一步的实验中固定t=8s。

同步与异步采样

鉴于听觉和视觉事件在视频中可能并不总是完美对齐[32]，我们还研究了不同模态的异步采样。这里，输入窗口从每个模态的整个视频剪辑中独立地采样。结果在附录中的图2中提供。我们发现性能在很大程度上对这两种情况都是稳健的，因此为了简单起见，我们在所有进一步的实验中使用同步采样。

模态混淆

在将混合正则化[59]应用于训练时，我们注意到有两种不同的方法将其应用于多模态输入——标准方法是使用参数α从β分布中采样一组混合权重，并使用它来生成所有虚拟模态标签对[59]。我们还探索了一个修改版本，我们称之为模态混合，它为每个模态采样一个独立的权重。模态混合比标准混合施加了更强的增强，导致音频集略有改进（42.6映射到43.9映射）。

4.4 结论

与单一模式性能的比较

我们将MBT与AudioSet（表1）、Epic-Kitchens（表2）和VGGSound（表3）上的纯视觉和纯音频基线进行了比较。注意，我们使用通过上述消融获得的最佳参数，即 $t = 8$ 、 $B = 4$ 、 $F_l=8$ 和模态混合的瓶颈融合。对于所有数据集，多模态融合优于性能更高的单模态基线，证明了互补信息的价值。分类标签的模态的相对重要性各不相同（仅音频对于AudioSet具有较高的相对性能，对于Epic-Kitchens具有较低的相对性能，而对于VGGSound，音频和视觉基线同样强大）。这（不出所料）很大程度上是数据集注释过程的函数，并将VGGSound定位为唯一适合融合的数据集。我们还展示了视听融合为传统上仅视频的数据集（如动力学和时刻）提供轻微的性能提升（详情见附录C）。我们还在Audioset数据集上检查了每个类别的性能（附录中的图3和图4），发现对于前60个类别（按整体性能排名），除了具有强音频特征的“风笛”、“紧急车辆”和“迪吉里杜管”之外，视听融合在几乎所有（60个中的57个）类别中都优于仅音频或仅视频的性能。对于诸如“自行车”和“洗牌”之类的音频信号较弱的类别，融合在绝对AP方面比纯音频基线提高了60%以上。

在这里插入图片描述
表1：与音频集上的SOTA的比较[21]。我们报告了平均精密度（mAP）。我们优于在完整音频集（2M样本）上训练的作品，而我们只在500K样本上训练。

在这里插入图片描述
表2：在EpicKitchens-100上与SOTA的比较[12]。模态是A：音频，V：视觉，F：光流。 $†$ 在VGGSound上使用预训练。

在这里插入图片描述
表3：与VGGSound[10]的现有技术的比较。模态是A：音频，V：视觉，F：光流。 $‡$ 我们使用作者提供的分数在测试集上计算指标，以便进行公平比较。

5.结论

我们提出了一种新的视听融合Transformer model架构（MBT），并探索了许多使用潜在令牌之间交叉注意力的不同融合策略。我们提出了一种新的策略来通过一小组融合“瓶颈”来限制跨模态注意力，并证明了这以较低的计算成本提高了比普通交叉注意力更好的性能，在许多基准上实现了最先进的结果。未来的工作将涉及将MBT扩展到其他模式，如文本和光流。

局限性：融合层是一个超参数，可能需要针对不同的任务和数据集进行专门调整。我们也只探索完全监督的融合，未来的工作将解决自监督学习框架的扩展。

更广泛的影响：多模态融合策略对于机器学习很重要，因为融合来自不同模态的互补信息可以在应用于现实世界的应用时增加鲁棒性。我们还注意到，transformer通常计算量很大，这可能会对环境产生不利影响。我们提出了一种通过瓶颈的令牌融合方法，该方法有助于在将transformer应用于多模态融合时降低计算复杂度。最后，我们观察到训练数据集包含偏差，这可能会使在其上训练的模型不适合某些应用。因此，人们可能会（有意或无意）使用分类模型来做出对社会中不同群体产生不同影响的决定，在部署、分析和构建这些模型时记住这一点很重要。

参考文献

[1] Samira Abnar and Willem Zuidema. Quantifying attention flow in transformers. arXiv preprint arXiv:2005.00928, 2020. [2] Hassan Akbari, Linagzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui, and Boqing Gong. Vatt: Transformers for multimodal self-supervised learning from raw video, audio and text. NeurIPS, 2021.
[3] Jean-Baptiste Alayrac, Adrià Recasens, Rosalia Schneider, Relja Arandjelovi ́ c, Jason Ramapuram, Jeffrey De Fauw, Lucas Smaira, Sander Dieleman, and Andrew Zisserman. Self-supervised multimodal versatile networks. In NeurIPS, 2020.
[4] Relja Arandjelovic and Andrew Zisserman. Look, listen and learn. In ICCV, 2017.
[5] Relja Arandjelovic and Andrew Zisserman. Objects that sound. In ECCV, 2018.
[6] Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Luˇ ci ́ c, and Cordelia Schmid. Vivit: A video vision transformer. ICCV, 2021.
[7] Yusuf Aytar, Carl Vondrick, and Antonio Torralba. Soundnet: Learning sound representations from unlabeled video. In NeurIPS, 2016.
[8] Max Bain, Arsha Nagrani, Gül Varol, and Andrew Zisserman. Frozen in time: A joint video and image encoder for end-to-end retrieval. ICCV, 2021.
[9] Honglie Chen, Weidi Xie, Triantafyllos Afouras, Arsha Nagrani, Andrea Vedaldi, and Andrew Zisserman. Localizing visual sounds the hard way. In CVPR, 2021.
[10] Honglie Chen, Weidi Xie, Andrea Vedaldi, and Andrew Zisserman. VGGSound: A large-scale audio-visual dataset. In ICASSP, 2020.
[11] Tsuhan Chen and Ram R Rao. Audio-visual integration in multimodal communication. Proceedings of the IEEE, 86(5):837–852, 1998.
[12] Dima Damen, Hazel Doughty, Giovanni Maria Farinella, Antonino Furnari, Evangelos Kazakos, Jian Ma, Davide Moltisanti, Jonathan Munro, Toby Perrett, Will Price, et al. Rescaling egocentric vision. arXiv preprint arXiv:2006.13256, 2020.
[13] Mostafa Dehghani, Alexey Gritsenko, Anurag Arnab, Matthias Minderer, and Yi Tay. Scenic: A JAX library for computer vision research and beyond. arXiv preprint arXiv:2110.11403, 2021.
[14] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In CVPR, pages 248–255. Ieee, 2009.
[15] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2019.
[16] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
[17] Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T Freeman, and Michael Rubinstein. Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation. ACM Transactions on Graphics (TOG), 37(4):1–11, 2018.
[18] Haytham M Fayek and Anurag Kumar. Large scale audiovisual learning of sounds with weakly labeled data. arXiv preprint arXiv:2006.01595, 2020.
[19] Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, and Kaiming He. Slowfast networks for video recognition. In ICCV, pages 6202–6211, 2019.
[20] Valentin Gabeur, Chen Sun, Karteek Alahari, and Cordelia Schmid. Multi-modal transformer for video retrieval. In ECCV, volume 5. Springer, 2020.
[21] Jort F Gemmeke, Daniel PW Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R Channing Moore, Manoj Plakal, and Marvin Ritter. Audio set: An ontology and human-labeled dataset for audio events. In ICASSP, pages 776–780. IEEE, 2017.
[22] Bernard Ghanem, Juan Carlos Niebles, Cees Snoek, Fabian Caba Heilbron, Humam Alwassel, Victor Escorcia, Ranjay Krishna, Shyamal Buch, and Cuong Duc Dao. The activitynet largescale activity recognition challenge 2018 summary. arXiv preprint arXiv:1808.03766, 2018.
[23] Yuan Gong, Yu-An Chung, and James Glass. AST: audio spectrogram transformer. arXiv preprint arXiv:2104.01778, 2021.
[24] David Harwath, Antonio Torralba, and James R Glass. Unsupervised learning of spoken language with visual context. NeurIPS, 2017.
[25] Lisa Anne Hendricks, John Mellor, Rosalia Schneider, Jean-Baptiste Alayrac, and Aida Nematzadeh. Decoupling the role of data, attention, and losses in multimodal transformers. arXiv preprint arXiv:2102.00529, 2021.
[26] Shawn Hershey, Sourish Chaudhuri, Daniel PW Ellis, Jort F Gemmeke, Aren Jansen, R Channing Moore, Manoj Plakal, Devin Platt, Rif A Saurous, Bryan Seybold, et al. CNN architectures for large-scale audio classification. In ICASSP, pages 131–135. IEEE, 2017.
[27] Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, and Kilian Q Weinberger. Deep networks with stochastic depth. In ECCV, 2016.
[28] Vladimir Iashin and Esa Rahtu. Multi-modal dense video captioning. In CVPR Workshops, pages 958–959, 2020.
[29] Andrew Jaegle, Felix Gimeno, Andrew Brock, Andrew Zisserman, Oriol Vinyals, and Joao Carreira. Perceiver: General perception with iterative attention. arXiv preprint arXiv:2103.03206, 2021.
[30] Aren Jansen, Daniel PW Ellis, Shawn Hershey, R Channing Moore, Manoj Plakal, Ashok C Popat, and Rif A Saurous. Coincidence, categorization, and consolidation: Learning to recognize sounds with minimal supervision. In ICASSP, 2020.
[31] Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, et al. The kinetics human action video dataset. arXiv preprint arXiv:1705.06950, 2017.
[32] Evangelos Kazakos, Arsha Nagrani, Andrew Zisserman, and Dima Damen. Epic-fusion: Audiovisual temporal binding for egocentric action recognition. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 5492–5501, 2019.
[33] Evangelos Kazakos, Arsha Nagrani, Andrew Zisserman, and Dima Damen. Slow-fast auditory streams for audio recognition. In ICASSP, pages 855–859. IEEE, 2021.
[34] Yelin Kim, Honglak Lee, and Emily Mower Provost. Deep learning for robust feature generation in audiovisual emotion recognition. In ICASSP. IEEE, 2013.
[35] Sangho Lee, Youngjae Yu, Gunhee Kim, Thomas Breuel, Jan Kautz, and Yale Song. Parameter efficient multimodal transformers for video representation learning. arXiv preprint arXiv:2012.04124, 2020.
[36] Guang Li, Linchao Zhu, Ping Liu, and Yi Yang. Entangled transformer for image captioning. In ICCV, pages 8928–8937, 2019.
[37] Jiaman Li, Yihang Yin, Hang Chu, Yi Zhou, Tingwu Wang, Sanja Fidler, and Hao Li. Learning to generate diverse dance motions with transformer. arXiv preprint arXiv:2008.08171, 2020.
[38] Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, and Kai-Wei Chang. Visualbert: A simple and performant baseline for vision and language. arXiv preprint arXiv:1908.03557, 2019.
[39] Ruilong Li, Shan Yang, David A Ross, and Angjoo Kanazawa. Learn to dance with aist++: Music conditioned 3d dance generation. arXiv preprint arXiv:2101.08779, 2021.
[40] Ji Lin, Chuang Gan, and Song Han. Temporal shift module for efficient video understanding. 2019 ieee. In ICCV, pages 7082–7092, 2019.
[41] Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee. Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. In NeurIPS, 2019.
[42] Mathew Monfort, Alex Andonian, Bolei Zhou, Kandan Ramakrishnan, Sarah Adel Bargal, Tom Yan, Lisa Brown, Quanfu Fan, Dan Gutfreund, Carl Vondrick, et al. Moments in time dataset: one million videos for event understanding. IEEE transactions on pattern analysis and machine intelligence, 42(2):502–508, 2019.
[43] Jiquan Ngiam, Aditya Khosla, Mingyu Kim, Juhan Nam, Honglak Lee, and Andrew Y Ng. Multimodal deep learning. In ICML, 2011.
[44] Andrew Owens and Alexei A Efros. Audio-visual scene analysis with self-supervised multisensory features. In ECCV, 2018.
[45] Daniel S Park, William Chan, Yu Zhang, Chung-Cheng Chiu, Barret Zoph, Ekin D Cubuk, and Quoc V Le. Specaugment: A simple data augmentation method for automatic speech recognition. arXiv preprint arXiv:1904.08779, 2019.
[46] Alexander Pashevich, Cordelia Schmid, and Chen Sun. Episodic transformer for vision-andlanguage navigation. In ICCV, 2021.
[47] Dhanesh Ramachandram and Graham W Taylor. Deep multimodal learning: A survey on recent advances and trends. IEEE Signal Processing Magazine, 34(6):96–108, 2017.
[48] Justin Salamon and Juan Pablo Bello. Deep convolutional neural networks and data augmentation for environmental sound classification. IEEE Signal Processing Letters, 24(3):279–283, 2017.
[49] Paul Hongsuck Seo, Arsha Nagrani, and Cordelia Schmid. Look before you speak: Visually contextualized utterances. In CVPR, 2021.
[50] Linda Smith and Michael Gasser. The development of embodied cognition: Six lessons from babies. Artificial life, 11(1-2):13–29, 2005.
[51] Chen Sun, Fabien Baradel, Kevin Murphy, and Cordelia Schmid. Learning video representations using contrastive bidirectional transformer. arXiv preprint arXiv:1906.05743, 2019.
[52] Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, and Cordelia Schmid. Videobert: A joint model for video and language representation learning. In ICCV, 2019.
[53] Efthymios Tzinis, Scott Wisdom, Aren Jansen, Shawn Hershey, Tal Remez, Daniel PW Ellis, and John R Hershey. Into the wild with audioscope: Unsupervised audio-visual separation of on-screen sounds. arXiv preprint arXiv:2011.01143, 2020.
[54] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. arXiv preprint arXiv:1706.03762, 2017.
[55] Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, and Luc Van Gool. Temporal segment networks: Towards good practices for deep action recognition. In ECCV. Springer, 2016.
[56] Weiyao Wang, Du Tran, and Matt Feiszli. What makes training multi-modal classification networks hard? In CVPR, pages 12695–12705, 2020.
[57] Fanyi Xiao, Yong Jae Lee, Kristen Grauman, Jitendra Malik, and Christoph Feichtenhofer. Audiovisual slowfast networks for video recognition. arXiv preprint arXiv:2001.08740, 2020.
[58] Linwei Ye, Mrigank Rochan, Zhi Liu, and Yang Wang. Cross-modal self-attention network for referring image segmentation. In CVPR, 2019.
[59] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and David Lopez-Paz. mixup: Beyond empirical risk minimization. arXiv preprint arXiv:1710.09412, 2017.
[60] Bolei Zhou, Alex Andonian, Aude Oliva, and Antonio Torralba. Temporal relational reasoning in videos. In ECCV, pages 803–818, 2018.