当前位置: 首页 > news >正文

AI在医学领域:HYDEN一种针对医学图像和报告的跨模态表示学习方法

      近年来,跨模态文本-图像表示学习在诸多领域取得了显著的突破,尤其是在零样本学习和图像-文本检索等任务上。这一成果的取得很大程度上归功于大量弱监督的图像-文本配对数据的利用,这些数据有效地增强了视觉-语言表示学习的能力。在医学成像领域,针对特定领域数据(例如胸部X光片及其相关放射学报告)的跨模态表示学习已经催生出了在该领域表现卓越的基础模型。

      俗话说,“一图胜千言”。这恰恰说明了图像所蕴含的信息量远胜于文字描述,而文字描述往往只是图像的一种简化表达。在这种关系中,文本可以被看作是图像的一种蕴含,构成了视觉语义层次结构的一部分。将这种视觉语义层次结构的归纳偏差融入跨模态对齐任务中,有助于提升表示的泛化能力和可解释性。

(a) 展示了医学文本-图像领域中的视觉-语义层次,阐释了不同的医学概念如何组织和相互联系,以及它们与医学图像的关联。

(b) 描述了医学数据嵌入从欧几里得空间过渡到超球面空间的表示,这种转换可以有效地捕获和表示密度偏序关系,同时保持相对密度关系的完整性。

      本文提出HYDEN,一种针对医学图像和报告的超球面密度表示方法。这种方法利用了超球面空间捕捉视觉语义层次的优势,同时结合了概率密度嵌入策略来模拟语义不确定性。

1 相关工作

1.1 欧几里得空间中的图像-文本表示学习

   CLIP 模型是这类方法的代表,它使用大量弱监督的图像-文本对数据进行训练,并通过对比学习的方式学习图像和文本的表示。这类方法在通用领域取得了很好的效果,但可能无法很好地处理医学领域数据的复杂性和特异性。

1.2 针对医学领域的图像-文本表示学习

一些研究针对医学领域的数据特点,提出了专门用于医学图像-文本表示学习的模型,例如 MERU 框架。这类模型通常在欧几里得空间中进行训练,并利用医学领域的先验知识来提升模型性能。

1.3 超越欧几里得空间的图像-文本表示学习

MERU 框架将图像和文本特征映射到双曲空间中,利用双曲空间的层级结构优势来学习图像-文本表示。这类模型能够更好地处理医学领域数据中的层级语义关系,但仍然使用点向量来表示图像和文本,无法有效表达语义不确定性。

1.4 概率密度嵌入

一些研究使用概率密度嵌入来表示图像和文本,例如 Gaussian Embedding。这类方法能够有效地表达语义不确定性,但主要应用于欧几里得空间,并且通常用于文档嵌入和图嵌入等任务。

2 方法

2.1 图像-文本特征嵌入

  • 文本编码器: 使用 BioClinicalBERT 对文本数据进行编码,提取文本特征。BioClinicalBERT 是一个在 MIMIC III 数据集上预训练的模型,能够有效地捕捉医学文本的语义信息。
  • 图像编码器: 使用 Vision Transformer (ViT) 对图像数据进行编码,提取图像特征。ViT 是一种基于 Transformer 的图像编码器,能够有效地捕捉图像的局部和全局特征。
  • 文本感知局部图像表示: 为了更好地捕捉医学图像的局部语义特征,HYDEN 引入了一个自注意力模块。该模块将文本嵌入作为查询,将图像特征作为键和值,从而生成文本感知的局部图像特征。最终图像特征是全局特征和局部特征的组合。

2.2 超双曲密度嵌入

  • 密度表示: HYDEN 使用超双曲伪高斯分布来表示图像和文本特征。这种表示方式能够有效地捕捉语义不确定性,并更好地表示医学数据的复杂性。
  • 映射到超双曲空间: HYDEN 将图像和文本的密度表示映射到超双曲空间。这通过使用指数映射函数来实现,将欧几里得空间中的向量映射到超双曲空间中的点。

2.3 损失函数

  • 封装损失函数: HYDEN 使用封装损失函数来建模图像-文本密度分布之间的部分排序关系。封装损失函数利用 α-散度来衡量两个分布之间的差异,并通过惩罚函数来确保一个分布完全包含另一个分布。
  • 对比损失函数: HYDEN 使用对比损失函数来增强图像和文本语义分布之间的相似性。对比损失函数通过计算超双曲空间中两个分布的测地线距离来实现。

3 实验

3.1 基线模型

  • CLIP: 在欧几里得空间中使用点嵌入进行图像-文本对齐的模型。
  • MERU: 在超双曲空间中使用点嵌入进行图像-文本对齐的模型。

3.2 数据集

  • MIMIC-CXR v2: 用于模型预训练的大型胸部 X 光图像和报告数据集。
  • RSNA Pneumonia: 用于零样本图像分类的胸部 X 光图像数据集。
  • SIIM-ACR Pneumothorax: 用于零样本图像分类的胸部 X 光图像数据集。
  • ChestXray14: 用于零样本图像分类、文本-图像检索和图像-图像检索的胸部 X 光图像数据集。

3.3 实验设置

  • 采用ViT-B 作为图像编码器,补丁大小为16,因为它在超球面空间中表现出了竞争性能。图像/文本编码器初始化策略与MERU类似,只是使用ClinicalBERT作为预训练的文本编码器,它已在大规模医学文本数据上进行了预训练。对于HYDEN,将可学习的曲率参数c初始化为1.0,并将其限制在[0.1, 10.0]的范围内,以防止训练不稳定。所有实验都使用两台NVIDIA A40 GPU和PyTorch框架进行。
  • 优化:采用AdamW优化器,权重衰减为0.2,(β1, β2) = (0.9, 0.98)。对于所有的增益、偏差和可学习的标量,不使用权重衰减。模型训练了13,000次迭代,批量大小为256。最大学习率设置为1 × 10^-5,在前500次迭代中线性增加,然后余弦衰减至零。使用混合精度来加速训练,除了在计算指数映射和损失时,为了数值稳定性使用FP32精度。

3.4 评估任务

  • 零样本图像分类: 评估模型在没有标签数据的情况下进行图像分类的能力。
  • 零样本文本-图像检索: 评估模型使用文本查询检索图像的能力。
  • 零样本图像-图像检索: 评估模型使用图像查询检索图像的能力。

3.5 实验结果

  • 定量分析: HYDEN 在零样本图像分类、文本-图像检索和图像-图像检索任务上都取得了优于 CLIP 和 MERU 的性能。这表明 HYDEN 模型能够更好地捕捉医学图像和报告之间的层次语义关系,并学习到更具可解释性和泛化能力的视觉语义表示。
  • 定性分析: HYDEN 模型能够有效地捕捉图像和文本嵌入之间的部分排序关系,这表明模型能够理解图像和文本之间的层次语义结构。

3.6 结论

       HYDEN 模型在医学图像和报告的跨模态表示学习方面取得了显著的成果。该模型能够有效地捕捉医学数据的复杂性和语义不确定性,并学习到更具可解释性和泛化能力的视觉语义表示。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • IOS 13 网络请求和Moya框架
  • k8s高版本(1,28)部署NodePort模式下的ingress-nginx的详细过程及应用案例
  • 图片转pdf:tif是什么格式?如何将tif转成PDF?
  • 【hot100篇-python刷题记录】【找到字符串中所有字母异位词】
  • 工厂模式和策略模式区别
  • 汽车冷却液温度传感器的作用与检测方法
  • Windows10如何关闭Edge浏览器的Copilot
  • 钓鱼的常见几种方式
  • css之grid布局(网格布局)
  • 力扣 128. 最长连续序列
  • 深度学习加速秘籍:PyTorch torch.backends.cudnn 模块全解析
  • python办公自动化:初识`python-docx`
  • win10 新建、删除文件不会自动刷新的问题解决方案
  • 92.WEB渗透测试-信息收集-Google语法(6)
  • idea 2024.2切换到旧版的UI
  • 分享的文章《人生如棋》
  • [笔记] php常见简单功能及函数
  • 【跃迁之路】【735天】程序员高效学习方法论探索系列(实验阶段492-2019.2.25)...
  • 230. Kth Smallest Element in a BST
  • Android Studio:GIT提交项目到远程仓库
  • Codepen 每日精选(2018-3-25)
  • DataBase in Android
  • ES6 ...操作符
  • JS正则表达式精简教程(JavaScript RegExp 对象)
  • PAT A1120
  • SegmentFault 社区上线小程序开发频道,助力小程序开发者生态
  • 编写符合Python风格的对象
  • 工作手记之html2canvas使用概述
  • 聚类分析——Kmeans
  • 来,膜拜下android roadmap,强大的执行力
  • 买一台 iPhone X,还是创建一家未来的独角兽?
  • 扑朔迷离的属性和特性【彻底弄清】
  • 前端面试之闭包
  • 容器服务kubernetes弹性伸缩高级用法
  • 收藏好这篇,别再只说“数据劫持”了
  • 好程序员大数据教程Hadoop全分布安装(非HA)
  • 曾刷新两项世界纪录,腾讯优图人脸检测算法 DSFD 正式开源 ...
  • #mysql 8.0 踩坑日记
  • (16)Reactor的测试——响应式Spring的道法术器
  • (2024,LoRA,全量微调,低秩,强正则化,缓解遗忘,多样性)LoRA 学习更少,遗忘更少
  • (27)4.8 习题课
  • (35)远程识别(又称无人机识别)(二)
  • (solr系列:一)使用tomcat部署solr服务
  • (附源码)springboot课程在线考试系统 毕业设计 655127
  • (论文阅读笔记)Network planning with deep reinforcement learning
  • (每日一问)计算机网络:浏览器输入一个地址到跳出网页这个过程中发生了哪些事情?(废话少说版)
  • (三)c52学习之旅-点亮LED灯
  • (推荐)叮当——中文语音对话机器人
  • (五)关系数据库标准语言SQL
  • (源码分析)springsecurity认证授权
  • ***微信公众号支付+微信H5支付+微信扫码支付+小程序支付+APP微信支付解决方案总结...
  • .NET 4.0网络开发入门之旅-- 我在“网” 中央(下)
  • .NET C# 使用 SetWindowsHookEx 监听鼠标或键盘消息以及此方法的坑
  • .net FrameWork简介,数组,枚举
  • .NET WebClient 类下载部分文件会错误?可能是解压缩的锅