当前位置：首页 > news >正文

医学视VQA——综述

news 来源：原创 2024/5/3 0:48:46

VQA parper的阅读

Medical Visual Question Answering: A Survey

收集和讨论了公开可用的医疗VQA数据集的最新数据源、数据数量和任务特征。
回顾了在医疗VQA任务中使用的方法（技术、创新和性能的改进）。
分析了该领域的一些医学特定挑战，并讨论了未来的研究方向。

文章目录

VQA parper的阅读
数据集和性能指标
- 数据集（主要涉及放射学和病理学）
- - VQA-Med-2018（医疗领域第一个公开可用的数据集）
  - VQA-RAD（放射学特定数据集）
  - VQA-Med-2019（四个问题类别:modality情态, plane平面, organ system器官系统, and abnormality异常。前三类作为分类任务处理，第四类作为生成答案的问题）
  - RadVisDial（第一个用于放射学可视对话的公开数据集）
  - PathVQA（探索病理学VQA的数据集）
  - VQA- med -2020
  - SLAKE（一个具有语义标签和结构化医学知识库的综合数据集）
  - VQA- med -2021
方法

数据集和性能指标

数据集（主要涉及放射学和病理学）

迄今为止有8个公共可用的医疗VQA数据集:
VQA- med -2018[31]
VQA- rad[45]
VQA- med -2019[14]
RadVisDial[44]
PathVQA[33]
VQA- med -2020[13]
SLAKE[53]
VQA- med -2021[15] (按时间顺序)

VQA-Med-2018（医疗领域第一个公开可用的数据集）

VQA-Med-2018[31]是ImageCLEF 2018中提出的数据集，是医疗领域第一个公开可用的数据集。QA对是通过半自动方法从字幕中生成的。首先，基于规则的问题生成系统(QG)通过句子简化、答案短语识别、问题生成和候选问题排序自动生成可能的问答对。然后，两名人工注释专家(包括一名临床医学专家)在两次通过中手动检查所有生成的QA对。一遍确保语义的正确性，另一遍确保与相关医学图像的临床相关性。
在这里插入图片描述

VQA-RAD（放射学特定数据集）

VQA-RAD [45] 是2018年提出的放射学特定数据集。该图像集是一个平衡的图像，包含MedPix中头部、胸部和腹部的样本。为了在现实场景中调查问题，作者将图像呈现给临床医生收集非引导问题。临床医生被要求在自由结构和模板结构中提出问题。随后，对QA进行人工验证和分类，以分析临床重点。
答案类型要么是封闭的，要么是开放的。尽管没有大量的数据，VQA- rad数据集已经获得了医疗VQA系统作为AI放射科医生应该能够回答的基本信息。
在这里插入图片描述

VQA-Med-2019（四个问题类别:modality情态, plane平面, organ system器官系统, and abnormality异常。前三类作为分类任务处理，第四类作为生成答案的问题）

VQA-Med-2019[14]是VQAMed的第二版，在ImageCLEF 2019挑战赛期间发布。受VQA-RAD[45]的启发，VQA-Med-2019解决了四个最常见的问题类别:modality情态, plane平面, organ system器官系统, and abnormality异常。对于每个类别，问题都遵循VQA-RAD[45]中自然提出和验证的数百个问题的模式。前三类(情态、平面和器官系统)可以作为分类任务处理，而第四类(异常)提出了一个生成答案的问题。
在这里插入图片描述

RadVisDial（第一个用于放射学可视对话的公开数据集）

RadVisDial[44]是第一个用于放射学可视对话的公开数据集。视觉对话由多个QA对组成，被认为是比VQA更实用、更复杂的放射AI系统任务。图像从MIMIC-CXR[37]中选择。对于每个图像，MIMIC-CXR提供了一个结构良好的相关报告，其中包含14个标签的注释(13个异常和一个No Findings标签)。RadVisDial由两个数据集组成:一个silver-standard dataset和一个gold-standard dataset。
在silver-standard dataset组中，对话是使用与每个图像相关联的纯文本报告综合创建的。每个对话包含从13个可能的问题中随机抽取的5个问题。相应的答案会自动从源数据中提取出来，并限制为四个选项(是、否、可能、报告中没有提到)。
在gold-standard dataset组中，对话收集自两位放射科专家的对话，遵循详细的注释指南，以确保一致性。只有100张随机图片被贴上了金标准标签。RadVisDial数据集探索了AI在医疗领域的一个真实场景任务。此外，该团队还将合成对话与现实对话进行了比较，并进行了实验，以反映上下文信息的重要性。介绍了患者的病史，提高了准确性。
在这里插入图片描述

PathVQA（探索病理学VQA的数据集）

PathVQA[33]是一个探索病理学VQA的数据集。配图文字的图片是从数字资源(电子教科书和在线图书馆)中提取的。作者开发了一个半自动的管道，将字幕转换为QA对，并手动检查和修改生成的QA对。问题可以分为七类:what, where, when, whose, how, how much/how many, and yes/no。开放性问题占所有问题的50.2%。对于“是/否”问题，答案是8145个“是”和8189个“否”。这些问题是根据美国病理学委员会(ABP)的病理学家认证考试设计的。因此，对决策支持中的“AI病理学家”进行验证是一门考试。PathVQA数据集表明，医疗VQA可以应用于各种场景。
在这里插入图片描述

VQA- med -2020

VQA-Med-2020[13]是VQAMed的第三版，发表在ImageCLEF 2020挑战中。对图像的选择有根据图像内容进行诊断的限制。这些问题是专门针对异常的。选择一个包含330个异常问题的列表，每个问题需要在数据集中至少出现10次。QA对是由创建的模式生成的。
在VQA-Med-2020中，视觉问题生成(VQG)任务首次被引入医疗领域。VQG任务是生成与图像内容相关的自然语言问题。医学VQG数据集包括1001张放射学图像和2400个相关问题。根据图片标题，用基于规则的方法生成基本真相问题，并手动修改。
在这里插入图片描述

SLAKE（一个具有语义标签和结构化医学知识库的综合数据集）

SLAKE[53]是一个具有语义标签和结构化医学知识库的综合数据集。这些图像从三个开源数据集[75,88,40]中选择，并由有经验的医生注释。图像的语义标签为可视对象提供掩码(分割)和边界框(检测)。以知识图谱的形式提供了医学知识库。知识图从OwnThink中提取并手动审阅。它们是三联的形式(例如，<心脏，功能，促进血液流动>)。该数据集包含2,603个英文三胞胎和2,629个中文三胞胎。知识图谱的引入使得器官功能和疾病预防等基于知识的外部问题成为可能。问题是从有经验的医生那里通过预先设定的问题中选择或改写问题来收集的。然后根据问题的类型进行分类，并进行平衡以避免偏见。
在这里插入图片描述