当前位置: 首页 > news >正文

医学视VQA——综述

VQA parper的阅读

Medical Visual Question Answering: A Survey

  1. 收集和讨论了公开可用的医疗VQA数据集的最新数据源、数据数量和任务特征。
  2. 回顾了在医疗VQA任务中使用的方法(技术、创新和性能的改进)。
  3. 分析了该领域的一些医学特定挑战,并讨论了未来的研究方向。

文章目录

  • VQA parper的阅读
  • 数据集和性能指标
    • 数据集(主要涉及放射学和病理学)
      • VQA-Med-2018(医疗领域第一个公开可用的数据集)
      • VQA-RAD(放射学特定数据集)
      • VQA-Med-2019(四个问题类别:modality情态, plane平面, organ system器官系统, and abnormality异常。前三类作为分类任务处理,第四类作为生成答案的问题)
      • RadVisDial(第一个用于放射学可视对话的公开数据集)
      • PathVQA(探索病理学VQA的数据集)
      • VQA- med -2020
      • SLAKE(一个具有语义标签和结构化医学知识库的综合数据集)
      • VQA- med -2021
  • 方法


数据集和性能指标

数据集(主要涉及放射学和病理学)

迄今为止有8个公共可用的医疗VQA数据集:
VQA- med -2018[31]
VQA- rad[45]
VQA- med -2019[14]
RadVisDial[44]
PathVQA[33]
VQA- med -2020[13]
SLAKE[53]
VQA- med -2021[15] (按时间顺序)

VQA-Med-2018(医疗领域第一个公开可用的数据集)

VQA-Med-2018[31]是ImageCLEF 2018中提出的数据集,是医疗领域第一个公开可用的数据集。QA对是通过半自动方法从字幕中生成的。首先,基于规则的问题生成系统(QG)通过句子简化、答案短语识别、问题生成和候选问题排序自动生成可能的问答对。然后,两名人工注释专家(包括一名临床医学专家)在两次通过中手动检查所有生成的QA对。一遍确保语义的正确性,另一遍确保与相关医学图像的临床相关性。
在这里插入图片描述

VQA-RAD(放射学特定数据集)

VQA-RAD [45] 是2018年提出的放射学特定数据集。该图像集是一个平衡的图像,包含MedPix中头部、胸部和腹部的样本。为了在现实场景中调查问题,作者将图像呈现给临床医生收集非引导问题。临床医生被要求在自由结构和模板结构中提出问题。随后,对QA进行人工验证和分类,以分析临床重点。
答案类型要么是封闭的,要么是开放的。尽管没有大量的数据,VQA- rad数据集已经获得了医疗VQA系统作为AI放射科医生应该能够回答的基本信息。
在这里插入图片描述

VQA-Med-2019(四个问题类别:modality情态, plane平面, organ system器官系统, and abnormality异常。前三类作为分类任务处理,第四类作为生成答案的问题)

VQA-Med-2019[14]是VQAMed的第二版,在ImageCLEF 2019挑战赛期间发布。受VQA-RAD[45]的启发,VQA-Med-2019解决了四个最常见的问题类别:modality情态, plane平面, organ system器官系统, and abnormality异常。对于每个类别,问题都遵循VQA-RAD[45]中自然提出和验证的数百个问题的模式。前三类(情态、平面和器官系统)可以作为分类任务处理,而第四类(异常)提出了一个生成答案的问题
在这里插入图片描述

RadVisDial(第一个用于放射学可视对话的公开数据集)

RadVisDial[44]是第一个用于放射学可视对话的公开数据集。视觉对话由多个QA对组成,被认为是比VQA更实用、更复杂的放射AI系统任务。图像从MIMIC-CXR[37]中选择。对于每个图像,MIMIC-CXR提供了一个结构良好的相关报告,其中包含14个标签的注释(13个异常和一个No Findings标签)。RadVisDial由两个数据集组成:一个silver-standard dataset和一个gold-standard dataset。
在silver-standard dataset组中,对话是使用与每个图像相关联的纯文本报告综合创建的。每个对话包含从13个可能的问题中随机抽取的5个问题。相应的答案会自动从源数据中提取出来,并限制为四个选项(是、否、可能、报告中没有提到)。
在gold-standard dataset组中,对话收集自两位放射科专家的对话,遵循详细的注释指南,以确保一致性。只有100张随机图片被贴上了金标准标签。RadVisDial数据集探索了AI在医疗领域的一个真实场景任务。此外,该团队还将合成对话与现实对话进行了比较,并进行了实验,以反映上下文信息的重要性。介绍了患者的病史,提高了准确性。
在这里插入图片描述

PathVQA(探索病理学VQA的数据集)

PathVQA[33]是一个探索病理学VQA的数据集。配图文字的图片是从数字资源(电子教科书和在线图书馆)中提取的。作者开发了一个半自动的管道,将字幕转换为QA对,并手动检查和修改生成的QA对。问题可以分为七类:what, where, when, whose, how, how much/how many, and yes/no。开放性问题占所有问题的50.2%。对于“是/否”问题,答案是8145个“是”和8189个“否”。这些问题是根据美国病理学委员会(ABP)的病理学家认证考试设计的。因此,对决策支持中的“AI病理学家”进行验证是一门考试。PathVQA数据集表明,医疗VQA可以应用于各种场景。
在这里插入图片描述

VQA- med -2020

VQA-Med-2020[13]是VQAMed的第三版,发表在ImageCLEF 2020挑战中。对图像的选择有根据图像内容进行诊断的限制。这些问题是专门针对异常的。选择一个包含330个异常问题的列表,每个问题需要在数据集中至少出现10次。QA对是由创建的模式生成的。
在VQA-Med-2020中,视觉问题生成(VQG)任务首次被引入医疗领域。VQG任务是生成与图像内容相关的自然语言问题。医学VQG数据集包括1001张放射学图像和2400个相关问题。根据图片标题,用基于规则的方法生成基本真相问题,并手动修改。
在这里插入图片描述

SLAKE(一个具有语义标签和结构化医学知识库的综合数据集)

SLAKE[53]是一个具有语义标签和结构化医学知识库的综合数据集。这些图像从三个开源数据集[75,88,40]中选择,并由有经验的医生注释。图像的语义标签为可视对象提供掩码(分割)和边界框(检测)。以知识图谱的形式提供了医学知识库。知识图从OwnThink中提取并手动审阅。它们是三联的形式(例如,<心脏,功能,促进血液流动>)。该数据集包含2,603个英文三胞胎和2,629个中文三胞胎。知识图谱的引入使得器官功能和疾病预防等基于知识的外部问题成为可能。问题是从有经验的医生那里通过预先设定的问题中选择或改写问题来收集的。然后根据问题的类型进行分类,并进行平衡以避免偏见。
在这里插入图片描述

VQA- med -2021

VQA-Med-2021[13]在ImageCLEF 2021挑战中发布。VQA-Med-2021是根据VQA-Med-2020的原则创建的。训练集与VQA-Med-2020使用的数据集相同。验证集和测试集是新的,由医生手动检查。
在这里插入图片描述

方法

在这里插入图片描述

相关文章:

  • Lambda表达式实现方式、标准格式、练习、省略模式、注意事项及和匿名内部类的区别
  • java毕业生设计医患辅助系统计算机源码+系统+mysql+调试部署+lw
  • CAD如何绘制六连环图案?CAD使用圆,椭圆,直线综合练习
  • 二叉树及其应用(增删改查)
  • 分库分表二:ShardingJDBC进阶实战案例上
  • ClickHouse(06)ClickHouse的数据表创建语句详细解析
  • 银纳米团簇-荧光Ag25团簇以及衍生团簇(直径1-2nm)
  • Jmeter-Windows环境配置
  • BZOJ4756 Promotion Counting(线段树合并)
  • 【重识云原生】第六章容器6.3.1节——K8S核心组件总述
  • python中常用的魔术方法总结(二)
  • 《Autosar_MCAL高阶配置》总目录_培训教程持续更新中...
  • python基础知识点
  • Python的collections原来这么好用
  • Python学习:encode()和decode()方法:字符串编码转换
  • ABAP的include关键字,Java的import, C的include和C4C ABSL 的import比较
  • C++类的相互关联
  • codis proxy处理流程
  • ECMAScript入门(七)--Module语法
  • ES2017异步函数现已正式可用
  • mongo索引构建
  • python3 使用 asyncio 代替线程
  • ReactNativeweexDeviceOne对比
  • Redis的resp协议
  • tweak 支持第三方库
  • VUE es6技巧写法(持续更新中~~~)
  • 表单中readonly的input等标签,禁止光标进入(focus)的几种方式
  • 分享几个不错的工具
  • 坑!为什么View.startAnimation不起作用?
  • 如何设计一个比特币钱包服务
  • 突破自己的技术思维
  • ​力扣解法汇总946-验证栈序列
  • #{}和${}的区别?
  • #我与Java虚拟机的故事#连载09:面试大厂逃不过的JVM
  • $(function(){})与(function($){....})(jQuery)的区别
  • $jQuery 重写Alert样式方法
  • (html转换)StringEscapeUtils类的转义与反转义方法
  • (阿里巴巴 dubbo,有数据库,可执行 )dubbo zookeeper spring demo
  • (推荐)叮当——中文语音对话机器人
  • (一)80c52学习之旅-起始篇
  • ... 是什么 ?... 有什么用处?
  • .Net CoreRabbitMQ消息存储可靠机制
  • .net 提取注释生成API文档 帮助文档
  • .Net 中Partitioner static与dynamic的性能对比
  • .NET 中的轻量级线程安全
  • .NET成年了,然后呢?
  • .net打印*三角形
  • .NET分布式缓存Memcached从入门到实战
  • .NET开发者必备的11款免费工具
  • .NET中的Exception处理(C#)
  • @entity 不限字节长度的类型_一文读懂Redis常见对象类型的底层数据结构
  • @JsonFormat与@DateTimeFormat注解的使用
  • @RequestMapping-占位符映射
  • [ vulhub漏洞复现篇 ] ThinkPHP 5.0.23-Rce
  • [AI]文心一言爆火的同时,ChatGPT带来了这么多的开源项目你了解吗