当前位置：首页 > news >正文

MABSA（Multimodal Aspect-Based Sentiment Analysis）2022ACL 预训练

news 来源：原创 2024/5/20 3:02:50

大致浏览，没有细看。

论文题目（Title）： Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

研究问题（Question）：多模态情感分析 MABSA (Multimodal Aspectased Sentiment Analysis)

研究动机（Motivation）：以前的方法要么(i)分别使用预先训练的视觉和文本模型，它们忽略了跨模态对齐，要么(ii)使用预先训练的一般预训练任务的视觉语言模型（vision-language models），这不足以识别细粒度 (fine-grained)的属性、情感及其跨模态的对齐。

主要贡献（Contribution）：

1.引入了一种特定于任务的视觉语言MABSA的预培训框架命名VLP-MABSA，它是一个统一的多模态编码器-解码器架构，用于所有的预训练和下游任务。

2.除了一般的MLM和MRM任务，进一步介绍了三个特定于任务的预培训任务，包括文本方面-意见提取、可视化方面-意见生成和多模态情感预测，以识别细粒度方面、意见及其跨模态对齐。

3.在三个MABSA子任务上的实验表明，该预训练方法总体上比现有方法获得了显著的性能提升。对监督和弱监督环境的进一步分析证明了每个训练前任务的有效性。

研究思路（Idea）：针对MABSA任务，作者提出了一个特定任务的视觉-文本（vision-language）预训练框架，其是一个通用的编码、解码框架，适用于所有的预训练和下游任务（downstream tasks)。此外，针对文本、视觉、和多模态，分别设计了三种特定任务的预训练任务。实验结果证明：该方法在三个MABSA任务上，均优于当前的sota模型。进一步的分析也证明了方法的有效性。

研究方法（Method）：

研究过程（Process）：

采用5种预训练任务：

MLM：类似BERT的做法，以15%的概率随机遮蔽输入文本的tokens，目标是基于图像和文本上下文预测出遮蔽的文本内容

AOE：目标是根据文本生成出其中包含的所有aspect和opinion。模型需要输出一个序列，包含分隔符和终止符的token，以及每条aspect和每条opinion在原文本token序列中的位置编号。aspect的ground-truth采用的是NER工具[3]对原文本提取出的所有实体，opinion的ground-truth采用的是SentiWordNet情感词典[4]对原文本提取出的所有情感词。

MRM：类似UNITER中的MRM-kl的做法，以15%的概率随机遮蔽image regions并替换为零向量，预测每个遮蔽掉的region的语义类别分布，将模型预测的分布与Faster R-CNN对该region预测的类别分布两者的KL散度作为该任务的损失值。

AOG：目标是从输入图像中生成所有的aspect-opinion pair。将DeepSentiBank[5]对输入图像提取出的置信度最高的ANP（形容词-名词对）作为ground-truth。模型需要预测出一个序列，包含一个这样的ANP以及终止符token。

MSP：将MVSA-Multi提供的粗粒度情感标签作为监督信号。根据两个模态的信息，预测出图文对的情感类别。

1.数据集（Dataset）

利用带有粗粒度情感标注的MVSA-Multi数据集进行预训练，在Multimodal Twitter数据集上进行预训练测试，在TWITTER-2015和TWITTER-2017两个细粒度视觉语言情感数据集上进行了下游实验。

2.评估指标（Evaluation）

F1 score (F1), Precision (P) and Recall (R)

3.实验结果（Result）

实验表明，在各下游任务上基本都能胜过其它SOTA方法的表现。进一步的实验和分析表明本文的各个预训练任务都对提升模型的表现有所帮助，在弱监督的情况下本文提出的几种task-specific的预训练任务对于模型提升的效果更显著。另外，在训练样例有限的情况下，本文提出的预训练方法给模型预测效果带来的提升也更为明显。

总结（Conclusion）：模型有效。