当前位置: 首页 > news >正文

【GMNER】Grounded Multimodal Named Entity Recognition on Social Media

Grounded Multimodal Named Entity Recognition on Social Media

  • 动机
  • 解决方法
    • 特征抽取
    • 多模态索引设计
    • 索引生成框架
      • Encoder
      • Decoder
    • 实体定位、
    • 实体-类型-区域三元组重建

出处:ACL2023
论文链接:https://aclanthology.org/2023.acl-long.508.pdf
code链接:https://github.com/NUSTM/GMNER
在这里插入图片描述

动机

目前的MNER任务主要把视觉特征作为额外的线索来帮助提升纯文本任务的性能,但是这有三点问题:一是MNER任务只提取实体-类型对,忽略了他们对应的目标框;二是提取的内容仅仅对构建纯文本的知识图谱有用,但是去无法建立多模态知识图谱;三是只识别实体类型对难以有效的进行试题消歧

解决方法

在这里插入图片描述

特征抽取

文本特征直接通过BART得到

对于图像特征,首先利用VinVL识别出所有候选物体,通过对这些候选物体排序后,选择top-k个物体并且将这些区域的平均池化特征作为嵌入特征,最后用线性层将特征维度映射到隐层维度

多模态索引设计

本任务的词表经过特殊设计,前两位1,2代表是否包含定位目标(yes1no2),3-6代表person、location、organization、MISC,从7往后则是跟文本相关的token

预测过程中,模型预测一个三元组,包含<entity,if_groundable, type>,其中entity可能包含不止一个索引,所以在预测的过程中三元组的长度是大于等于3的,例如原文中提到的

The first triple [7,8,1,3]refers to {Michael Jordan, groundable, PER}, the second triple [12,2,4] denotes {Toronto, ungroundable, LOC}, and the third triple [19,20,21,1,5]refers to {the Fields Institute, groundable, ORG}.

索引生成框架

Encoder

将经过特征抽取后得到的文本特征和视觉特征拼接起来,得到编码器的输入,文本特征的维度为nxd,视觉特征的维度为Kxd,拼接后的输入维度为(n+K)xd

Decoder

在第i个时间步的解码过程中,解码器利用输入特征以及前i个输出作为输入,来预测第i个输出

在这里插入图片描述

其中

C= TokenEmbed (c) refers to the embeddings of two indicator indexes, four entity type indexes, and special tokens such as the “end of sentence” token

三个公式说明了两个问题:

1.解码器是自回归生成的过程,虽然要预测三元组,但是也要逐个预测,而不是三个一股脑输出

2.解码器在预测过程中将特殊的token C直接与文本输入进行拼接与隐层状态点乘,[C;H_T^e]所对应的token其实就代表了这里最终分类完要预测的目标,也就是只预测特殊token(定位、类型)和文本(实体),而视觉特征虽然被拼接到输入中,但是输出的时候不做任何预测,而要通过groundable token进行后续的实体定位

在这里插入图片描述

N=n+c,n表示文本分词后的token数量,c表示特殊token的数量

实体定位、

首先看原文这里的公式:

在这里插入图片描述

也是融合原始特征和经过编码器后的特征,而后预测当前肾蕨特征在所有预先提取的区域上的概率分布,通过h_k来控制当前实体是否要进行实体定位操作

对于预测有实体的输出,要接着级联一个MLP来进行进一步的定位判定,注意这个定位不是visual grounding中的坐标预测,而是利用视觉特征预先提取好的特征来匹配的操作,这个下面会详细说明:

正如图三中所展示的,视觉区域特征是提前用大模型抽取好的,那么这些抽取到的区域跟实体对应的真实区域可能不会完全重合,所以要结合二者重新设定预测目标。具体而言,计算预先抽取的区域与真值区域之间的交并比,大于0.5的情况下保留,小于0.5时设为0,这样能得到每个视觉区域与真值区域之间的IoU得分,将IoU得分的序列进行归一化则得到了每个视觉区域的目标分布g(z_k),最后利用KL散度对这个目标分布进行预测(其实就是一个相似度最大化的匹配过程)
在这里插入图片描述

其中E是定位实体的数量。注意把这个损失与ViLBERT(直接重建图像内容,也是使用KL散度)对比来看,感兴趣的朋友可以看一下之前的博客:传送门在这里

训练阶段,将Decoder的目标损失LT和实体定位得到目标损失LV相加得到分层索引模型的最终损失。

实体-类型-区域三元组重建

在推理阶段,给定多模态输入,利用模型集合得到自回归的索引预测结果集合,这个集合肯定是比原始输入序列长的,长度范围大概是[原始输入序列长度+2,原始序列长度*3](考虑整个序列为一个实体,以及序列中每个token各成实体的两种极端)

利用输出索引序列,我们首先将每个索引转换为其原始含义,然后根据每个元素的索引跨度重建三元组(实体、可接地/不可接地、类型)。完整的算法如算法 1 所示

在这里插入图片描述

首先注意:E是定位实体的数量,忽略这一点看这个伪代码就很难看明白了

首先,对于输出序列Y,每次取一个索引y_i,每个三元组肯定先取到实体,所以索引长度肯定大于c,也就是执行else的操作,将y_i加入到e中;如果这个实体包含多个token,那么会一直执行这一步,直到都被加入到e中

当遇到特殊token时,y_i<c,也就是当前索引的值小于特殊token的长度,那么会首先判断是否存在于当前区域或类型有关的实体,如果有实体再判断e中的实体索引是否递增。因为默认先预测是否包含实体区域y_i,再预测实体类型y_{i+1},所以只要当前的索引是1 or 2,那么下一个一定是3-6(这个设定不一定合理,但是伪代码就是这样的),所以不用判断,直接将实体e、区域y_i、类型y_{i+1}组成三元组加入到E中。执行完上述操作后,实体序列清空,i跳步

重复上述步骤,直到迭代结束

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • LeetCode题练习与总结:回文链表--234
  • nginx的作用是什么
  • PyCharm的使用
  • WPF颜色(SolidColorBrush)和Win32颜色(COLOREF)互转的方法
  • FFmpeg中结构释放小函数
  • 文档图像恢复
  • Linux之实战命令02:shred应用实例(三十六)
  • 1.Spring-容器-注册
  • Ubuntu 22.04 源码下载、编译
  • 【数据结构C语言】【入门】【首次万字详细解析】入门阶段数据结构可能用到的C语言知识,一章让你看懂数据结构!!!!!!!
  • 计算机组成原理之计算机系统的工作原理
  • 第一次安装Pytorch
  • Golang | Leetcode Golang题解之第421题数组中两个数的最大异或值
  • MySql主从复制原理
  • docker 升级步骤
  • “Material Design”设计规范在 ComponentOne For WinForm 的全新尝试!
  • Brief introduction of how to 'Call, Apply and Bind'
  • JavaScript创建对象的四种方式
  • Java的Interrupt与线程中断
  • Leetcode 27 Remove Element
  • PAT A1120
  • PHP 小技巧
  • ReactNativeweexDeviceOne对比
  • React组件设计模式(一)
  • 从零开始在ubuntu上搭建node开发环境
  • 给Prometheus造假数据的方法
  • 关于springcloud Gateway中的限流
  • 回顾2016
  • 排序(1):冒泡排序
  • 用quicker-worker.js轻松跑一个大数据遍历
  • 国内开源镜像站点
  • # C++之functional库用法整理
  • # 飞书APP集成平台-数字化落地
  • # 睡眠3秒_床上这样睡觉的人,睡眠质量多半不好
  • $.ajax()
  • (2)leetcode 234.回文链表 141.环形链表
  • (8)STL算法之替换
  • (Java实习生)每日10道面试题打卡——JavaWeb篇
  • (PySpark)RDD实验实战——取最大数出现的次数
  • (超详细)2-YOLOV5改进-添加SimAM注意力机制
  • (附表设计)不是我吹!超级全面的权限系统设计方案面世了
  • (附源码)ssm基于jsp的在线点餐系统 毕业设计 111016
  • (免费领源码)python#django#mysql公交线路查询系统85021- 计算机毕业设计项目选题推荐
  • (南京观海微电子)——I3C协议介绍
  • (五)c52学习之旅-静态数码管
  • (一) storm的集群安装与配置
  • (转)MVC3 类型“System.Web.Mvc.ModelClientValidationRule”同时存在
  • .mysql secret在哪_MYSQL基本操作(上)
  • .naturalWidth 和naturalHeight属性,
  • .net web项目 调用webService
  • .NET 中各种混淆(Obfuscation)的含义、原理、实际效果和不同级别的差异(使用 SmartAssembly)
  • .NET6 命令行启动及发布单个Exe文件
  • .NET简谈互操作(五:基础知识之Dynamic平台调用)
  • .Net中wcf服务生成及调用
  • .NET周刊【7月第4期 2024-07-28】