当前位置: 首页 > news >正文

MABSA(Multimodal Aspect-Based Sentiment Analysis)2022ACL 预训练

大致浏览,没有细看。

论文题目(Title): Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment Analysis

研究问题(Question):多模态情感分析 MABSA (Multimodal Aspectased Sentiment Analysis)

研究动机(Motivation):以前的方法要么(i)分别使用预先训练的视觉和文本模型,它们忽略了跨模态对齐,要么(ii)使用预先训练的一般预训练任务的视觉语言模型 (vision-language models),这不足以识别细粒度 (fine-grained)的属性、情感及其跨模态的对齐。

主要贡献(Contribution):

1.引入了一种特定于任务的视觉语言MABSA的预培训框架命名VLP-MABSA,它是一个统一的多模态编码器-解码器架构,用于所有的预训练和下游任务。

2.除了一般的MLM和MRM任务,进一步介绍了三个特定于任务的预培训任务,包括文本方面-意见提取、可视化方面-意见生成和多模态情感预测,以识别细粒度方面、意见及其跨模态对齐。

3.在三个MABSA子任务上的实验表明,该预训练方法总体上比现有方法获得了显著的性能提升。对监督和弱监督环境的进一步分析证明了每个训练前任务的有效性。

研究思路(Idea):针对MABSA任务,作者提出了一个特定任务的视觉-文本 (vision-language)预训练框架,其是一个通用的编码、解码框架,适用于所有的预训练和下游任务 (downstream tasks)。此外,针对文本、视觉、和多模态,分别设计了三种特定任务的预训练任务。实验结果证明:该方法在三个MABSA任务上,均优于当前的sota模型。进一步的分析也证明了方法的有效性。

研究方法(Method):

研究过程(Process):

采用5种预训练任务:

MLM:类似BERT的做法,以15%的概率随机遮蔽输入文本的tokens,目标是基于图像和文本上下文预测出遮蔽的文本内容

AOE:目标是根据文本生成出其中包含的所有aspect和opinion。模型需要输出一个序列,包含分隔符和终止符的token,以及每条aspect和每条opinion在原文本token序列中的位置编号。aspect的ground-truth采用的是NER工具[3]对原文本提取出的所有实体,opinion的ground-truth采用的是SentiWordNet情感词典[4]对原文本提取出的所有情感词。

MRM:类似UNITER中的MRM-kl的做法,以15%的概率随机遮蔽image regions并替换为零向量,预测每个遮蔽掉的region的语义类别分布,将模型预测的分布与Faster R-CNN对该region预测的类别分布两者的KL散度作为该任务的损失值。

AOG:目标是从输入图像中生成所有的aspect-opinion pair。将DeepSentiBank[5]对输入图像提取出的置信度最高的ANP(形容词-名词对)作为ground-truth。模型需要预测出一个序列,包含一个这样的ANP以及终止符token。

MSP:将MVSA-Multi提供的粗粒度情感标签作为监督信号。根据两个模态的信息,预测出图文对的情感类别。

        1.数据集(Dataset)

利用带有粗粒度情感标注的MVSA-Multi数据集进行预训练,在Multimodal Twitter数据集上进行预训练测试,在TWITTER-2015和TWITTER-2017两个细粒度视觉语言情感数据集上进行了下游实验。

        2.评估指标(Evaluation)

F1 score (F1), Precision (P) and Recall (R)

        3.实验结果(Result)

实验表明,在各下游任务上基本都能胜过其它SOTA方法的表现。进一步的实验和分析表明本文的各个预训练任务都对提升模型的表现有所帮助,在弱监督的情况下本文提出的几种task-specific的预训练任务对于模型提升的效果更显著。另外,在训练样例有限的情况下,本文提出的预训练方法给模型预测效果带来的提升也更为明显。

总结(Conclusion):模型有效。

相关文章:

  • MySQL中in(‘1,2,3‘)只取第一个id为1对应的数据
  • 专注于自媒体短视频领域四年后的运营问题汇总-第一集
  • 网络安全系列-三十四: 基于网络流量的设备识别
  • 第3章 栈和队列 编程题
  • Redis面试
  • python正则表达式(三)
  • 雷达信号处理算法:静态杂波滤除(附MATLAB代码和数据)
  • Doing It in User Space
  • Vue2:网易云播放音乐并实现同步一次显示一行歌词
  • 这四个问题处理好,无人机集群编队研究会有新突破
  • 【JavaSE】之JVM入门(上)
  • 《计算机视觉基础知识蓝皮书》第7篇 模型优化方法及思路
  • java毕业设计牙科诊所管理系统Mybatis+系统+数据库+调试部署
  • 蓝桥杯2022年(本科c++b组)
  • pytorch :OSError: [WinError 1455] 页面文件太小,无法完成操作。 Error loading 【已解决】
  • [Vue CLI 3] 配置解析之 css.extract
  • 【跃迁之路】【669天】程序员高效学习方法论探索系列(实验阶段426-2018.12.13)...
  • Apache的80端口被占用以及访问时报错403
  • ES学习笔记(12)--Symbol
  • LeetCode541. Reverse String II -- 按步长反转字符串
  • Linux编程学习笔记 | Linux多线程学习[2] - 线程的同步
  • Linux学习笔记6-使用fdisk进行磁盘管理
  • mysql_config not found
  • node-sass 安装卡在 node scripts/install.js 解决办法
  • NSTimer学习笔记
  • OpenStack安装流程(juno版)- 添加网络服务(neutron)- controller节点
  • Redis 懒删除(lazy free)简史
  • Redis提升并发能力 | 从0开始构建SpringCloud微服务(2)
  • XForms - 更强大的Form
  • 从setTimeout-setInterval看JS线程
  • 免费小说阅读小程序
  • 世界编程语言排行榜2008年06月(ActionScript 挺进20强)
  • 原生 js 实现移动端 Touch 滑动反弹
  • 在 Chrome DevTools 中调试 JavaScript 入门
  • 自制字幕遮挡器
  • 做一名精致的JavaScripter 01:JavaScript简介
  • JavaScript 新语法详解:Class 的私有属性与私有方法 ...
  • Python 之网络式编程
  • 哈罗单车融资几十亿元,蚂蚁金服与春华资本加持 ...
  • 京东物流联手山西图灵打造智能供应链,让阅读更有趣 ...
  • 数据库巡检项
  • ​​​​​​​​​​​​​​Γ函数
  • #我与Java虚拟机的故事#连载06:收获颇多的经典之作
  • $.proxy和$.extend
  • (22)C#传智:复习,多态虚方法抽象类接口,静态类,String与StringBuilder,集合泛型List与Dictionary,文件类,结构与类的区别
  • (MATLAB)第五章-矩阵运算
  • (zz)子曾经曰过:先有司,赦小过,举贤才
  • (附源码)基于SpringBoot和Vue的厨到家服务平台的设计与实现 毕业设计 063133
  • (附源码)计算机毕业设计SSM疫情居家隔离服务系统
  • (含react-draggable库以及相关BUG如何解决)固定在左上方某盒子内(如按钮)添加可拖动功能,使用react hook语法实现
  • (一)Dubbo快速入门、介绍、使用
  • (一)基于IDEA的JAVA基础12
  • .form文件_SSM框架文件上传篇
  • .Net 4.0并行库实用性演练
  • .NET 4.0网络开发入门之旅-- 我在“网” 中央(下)