当前位置: 首页 > news >正文

论文笔记:基于多粒度信息融合的社交媒体多模态假新闻检测

整理了ICMR2023 Multi-modal Fake News Detection on Social Media via Multi-grained Information Fusion)论文的阅读笔记

  • 背景
  • 模型
  • 实验

背景

  在假新闻检测领域,目前的方法主要集中在文本和视觉特征的集成上,但不能有效地利用细粒度和粗粒度级别的多模态信息。此外,由于模态之间缺乏相关性或每个模态所做的决策之间存在矛盾,它们还存在歧义问题,如图一,为了克服这些挑战,本文提出了一个用于假新闻检测的多粒度多模态融合网络(MMFN)。
  MMFN分别使用两个基于transformer的预训练模型来编码文本和图像的令牌级特征。多模态模块融合细粒度特征,同时考虑到CLIP编码器编码的粗粒度特征。为了解决歧义问题,设计了基于相似性加权的单模态分支,以自适应地调整多模态特征的使用。
在这里插入图片描述

模型

  MMFN的网络设计如图2所示,由多模态特征编码器、多粒度特征融合模块、单模态分支和基于CLIP相似度的模态加权以及分类器组成。
在这里插入图片描述
  具体来说,这篇文章使用了三种预训练的编码器对多模态特征进行编码,分别是基于transformer的BERT和SWIN-T,基于对比学习的CLIP。
  需要注意的是,BERT和SWIN-T的输出都是token级的,BERT的输出表示为 T b = [ t 1 b , t 2 b , . . . , t n w b ] T^b=[t_1^b,t_2^b,...,t_{nw}^b] Tb=[t1b,t2b,...,tnwb],其中 t i b t_i^b tib表示文本嵌入中第i个token(也就是第i个词)的最后一个隐藏状态的输出, d b d_b db是单词嵌入的维度。SWIN-T的输出表示为 V s = [ v 1 s , v 2 s , . . . , v n p s ] V^s=[v_1^s,v_2^s,...,v_{n_p}^s] Vs=[v1s,v2s,...,vnps],其中, v i s ∈ R s s v_i^s\in R^{s_s} visRss为模型最后一层输出处对应于输入的第i个patch的隐藏状态,𝑛𝑝为SWIN-T中的patch数, d s d_s ds为视觉嵌入的隐藏大小。
  CLIP文本和图片编码器的结果为 X c = [ t c , v c ] X^c=[t^c,v^c] Xc=[tc,vc],分别表示图片和文本模态的嵌入向量,他们处于同一个嵌入空间。
  拿到了这些特征后,本文的单模态分支就是把BERT和SWIN-T的token级向量进行平平均池化,然后和CLIP的编码结果拼起来经过一个映射头,作为两个单模态分支特征,即: F t = Φ T ( T b ˉ ; t c ) F^t=\Phi_T(\bar{T_b};t^c) Ft=ΦT(Tbˉ;tc) F v = Φ V ( V s ˉ ; v c ) F^v=\Phi_V(\bar{V_s};v^c) Fv=ΦV(Vsˉ;vc)  接下来我们看粗细粒度的多模态融合模块,所谓细粒度,就是把 T b T_b Tb V s V_s Vs分别送入两个transformer架构的共注意力机制模块,得到互相加权后的文本和图片细粒度特征: F v t = C T ( ( T b W t ) , ( V s W v ) ) F^{vt}=CT((T^bW^t),(V^sW^v)) Fvt=CT((TbWt),(VsWv)) F t v = C T ( ( V s W v ) , ( T b W t ) ) F^tv=CT((V^sW^v),(T^bW^t)) Ftv=CT((VsWv),(TbWt))  然后通过几个全连接层把互相加权过的细粒度特征和粗粒度特征融合: M f = F F N 1 ( F v t ; F t v ) M^f=FFN_1(F^{vt};F^{tv}) Mf=FFN1(Fvt;Ftv) M c = F F N 2 ( t c ; v c ) M^c=FFN_2(t^c;v^c) Mc=FFN2(tc;vc) F m = s i m i l a r i t y ⋅ Φ M ( M f , M c ) F^m=similarity\cdot \Phi_M(M^f,M^c) Fm=similarityΦM(Mf,Mc)  similarity是通过CLIP特征算出来的模态间余弦相似度,作者认为,如果直接将单模态分支表示发送给分类器进行决策,分类器可能更倾向于使用具有更深网络的多模态表示来拟合结果,而单模态分支可能会干扰决策并导致更严重的歧义问题。因此使用CLIP余弦相似度作为多模态特征加权的系数来指导分类器的学习过程,也就是给多模态特征加权。
  将三个分支的特征送入分类头得到pre,损失函数是交叉熵。

实验

  使用的数据集是2017年MM文章提出的Twitter和Weibo,以及Fakenewsnet中的Gossipcop,得到了SOTA效果:
在这里插入图片描述
  消融实验:
在这里插入图片描述
  在微博的测试集上进行的T-SNE降维可视化:
在这里插入图片描述

相关文章:

  • 一些常见的jenkins问题和答案
  • Android Glide配置AppGlideModule定制化线程池,Kotlin(1)
  • 网络原理 - HTTP / HTTPS(3)——http响应
  • IPSec VPN
  • Tensorflow2.0笔记 - 自定义Layer和Model实现CIFAR10数据集的训练
  • TCP的十个重要的机制
  • [每周一更]-第92期:Go项目中的限流算法
  • 信创环境ES索引管理脚本:close, delete
  • 优化 Nginx 处理 504 Gateway Timeout 错误
  • 【漏洞复现】WordPress Plugin LearnDash LMS 敏感信息暴漏
  • 即刻体验 | 使用 Flutter 3.19 更高效地开发
  • 【软件工程】详细设计(一)
  • Autodesk AutoCAD 2025 (macOS, Windows) - 自动计算机辅助设计软件
  • 文件操作讲解
  • Golang基础-9
  • 30天自制操作系统-2
  • Android交互
  • CNN 在图像分割中的简史:从 R-CNN 到 Mask R-CNN
  • CSS 专业技巧
  • javascript从右向左截取指定位数字符的3种方法
  • markdown编辑器简评
  • nodejs实现webservice问题总结
  • RxJS: 简单入门
  • Storybook 5.0正式发布:有史以来变化最大的版本\n
  • 阿里云购买磁盘后挂载
  • 浮动相关
  • 给Prometheus造假数据的方法
  • 机器学习中为什么要做归一化normalization
  • 浅谈Kotlin实战篇之自定义View图片圆角简单应用(一)
  • 译有关态射的一切
  • ​​​​​​​GitLab 之 GitLab-Runner 安装,配置与问题汇总
  • ​低代码平台的核心价值与优势
  • # 睡眠3秒_床上这样睡觉的人,睡眠质量多半不好
  • #if 1...#endif
  • #鸿蒙生态创新中心#揭幕仪式在深圳湾科技生态园举行
  • (12)Hive调优——count distinct去重优化
  • (145)光线追踪距离场柔和阴影
  • (Redis使用系列) SpirngBoot中关于Redis的值的各种方式的存储与取出 三
  • (一)80c52学习之旅-起始篇
  • (转) SpringBoot:使用spring-boot-devtools进行热部署以及不生效的问题解决
  • (转)PlayerPrefs在Windows下存到哪里去了?
  • .chm格式文件如何阅读
  • .NET Project Open Day(2011.11.13)
  • .Net Web窗口页属性
  • .NET/C# 项目如何优雅地设置条件编译符号?
  • .NET/C# 在代码中测量代码执行耗时的建议(比较系统性能计数器和系统时间)...
  • ??javascript里的变量问题
  • @font-face 用字体画图标
  • @Transactional 竟也能解决分布式事务?
  • []利用定点式具实现:文件读取,完成不同进制之间的
  • [<死锁专题>]
  • [BZOJ 2142]礼物(扩展Lucas定理)
  • [BZOJ 3680]吊打XXX(模拟退火)
  • [C++]命名空间等——喵喵要吃C嘎嘎
  • [CISCN2019 华东北赛区]Web2