当前位置: 首页 > news >正文

论文研读:ViT-V-Net—用于无监督3D医学图像配准的Vision Transformer

目录

摘要

介绍

方法

VIT-V-Net体系结构

损失函数 

图像相似性度量

变形场正则化

结果与讨论


摘要

在过去的十年里,卷积神经网络(ConvNets)在各种医学成像应用中占据了主导地位并取得了最先进的性能。然而,由于缺乏对图像中远程空间关系的理解,ConvNet的性能仍然受到限制。最近提出的用于图像分类的视觉转换器(VIT)使用了一种纯粹基于自我注意的模型,该模型学习远程空间关系以关注图像的相关部分。然而,由于连续的下采样,VIT强调低分辨率的特征,导致缺乏详细的定位信息,不适合图像配准。最近,几种基于VIT的图像分割方法被与ConvNets相结合,以提高对详细定位信息的恢复。受它们的启发,我们提出了VIT-V-Net,它连接了VIT和ConvNet,以提供3D医学图像配准。

介绍

近年来,由于在自然语言处理方面取得了巨大的成功,人们对开发基于自我注意的体系结构越来越感兴趣。、Dosovitski等人。(Dosovitski等人,2020)提出了视觉转换器(VIT),这是第一个纯粹基于自我注意的网络,并在图像识别方面取得了最先进的性能。在这一进展之后,TransUnet(Chen等人,2021年)是在用于二维(2D)医学图像分割的预先训练的VIT的基础上开发的。

然而,医学成像方式通常产生体积图像(即,3D图像),并且2D图像不能充分利用从3D体积获得的空间对应关系。因此,发展3D方法在医学图像配准中更为可取。在这项工作中,作者提出了一项研究,以研究VIT在体积医学图像配准中的应用。提出了一种采用混合ConvNet-Transformer结构的VIT-V-Net,用于自监督体图像配准。在该方法中,VIT被应用于运动图像和固定图像的高层特征,这需要网络学习图像中点之间的远距离关系。编码级和解码级之间的长跳跃连接被用来保持定位信息流。实验结果表明,简单地将VoxelMorph的网络结构替换为Vit-V-Net,就可以获得优于VoxelMorph和传统注册方法的性能。

方法

设f和m分别为固定图像和运动图像。我们假设f和m是单通道灰度图像,并且它们是仿射对齐的。我们的目标是预测一个变换函数φ,它将m(即m◦φ)翘曲到f,其中φ=Id+u,u表示位移矢量的流场,Id表示恒等式。图1概述了我们的方法。首先,深度神经网络(gθ)使用一组参数θ(即,u=gθ(f,m))为给定图像对f和m生成u。然后,通过空间变换函数执行翘曲(即m◦φ)(Jaderberg等人,2015年)。在网络训练过程中,比较m◦φ和f之间的图像相似度,并将损失反向传播到网络中。

图1 VIT-V-Net的方法概述和网络结构

VIT-V-Net体系结构

VIT-V-Net体系结构VIT在全分辨率体积图像中的应用导致了很大的计算复杂性。在这里,作者并没有将全分辨率图像直接送入VIT。

  • 通过一系列卷积层和最大值池(图1中的蓝框)将图像(即f和m)编码成高级特征表示。在VIT(橙色框)中,高层特征被分成N个矢量化的P^{3}*C块,其中N=\frac{HWL}{P^{3}}P表示块大小,C表示通道大小。
  • 使用可训练的线性投影将这些patch映射到潜在的D维空间。
  • 将可学习的position embedding添加到patch embedding以保留patch的位置信息。
  • 将生成的补丁送入Transformer编码器,该编码器由12个交替的多头自我注意(MSA)和多层感知器(MLP)块组成
  • 最后,对VIT的输出进行整形,然后使用V-Net风格的解码器进行解码。

图2 Vision Transformer模型概述 

(请注意,编码器和解码器之间也使用了长跳过连接。网络的最终输出是一个密集的位移场。然后将其用于空间变压器中,以扭曲m)。

损失函数 

本研究中使用的图像相似性度量是均方误差,以及由加权参数λ控制的扩散正则化,用于在位移场u中施加平滑。

用于训练所提出的网络的损失函数可以写成:

L(f,m,\Phi )=L_{MSE}(f,m,\Phi)+\lambda L_{diffusion}(\Phi)

其中,λ是正则化参数,f和m分别是固定图像和运动图像,φ表示变形场

图像相似性度量

以变形后的运动图像与固定图像之间的均方误差(MSE)作为损失函数。它被定义为:

L_{MES}(f,m,\Phi )=\tfrac{1}{\Omega }\sum_{p\in \omega }^{}[f(p)-m o\Phi]^{2}

变形场正则化

为了增强变形场的光滑性,使用了扩散正则化。它被定义为: 

L_{diffusion}(\Phi )=\sum_{p\in \omega }^{}||\bigtriangledown u(p)||^{2}

结果与讨论

作者在脑部核磁共振图像配准任务中进行了实验法。使用了一个内部数据集,其中包括260个T1加权的脑部MRI扫描。数据集被分成182、26和52(7:1:2)卷,用于训练、验证和测试集。将每个图像体积随机匹配到另外两个体积以形成四对f和m,得到768、104和208个图像对。结构脑MRI的标准前处理步骤,包括颅骨剥离、重采样和仿射变换,使用Freesurfer进行(Fischl,2012)。然后,将得到的体积裁剪成相等大小的160×192×224。使用Freesurfer获得了包括29个解剖结构的标记图以供评估。

将所提出的方法在Dice Score与对称正规化(SYN)NiftyReg以及VoxelMorph-1和-2进行了比较。正则化参数λ被设置为0.02,从结果可以看出,作者提出的VIT-V网络在Dice性能方面产生了0.1的显著收益(p值如表所示)。总之,基于VIT的注册体系结构取得了优于性能最好的注册方法的性能,证明了VIT-V-Net的有效性。

 表1 将所提出的方法与其他方法进行了总体骰子比较

图3 MR冠状切片的配准结果 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 《C++并发编程实战》笔记(一、二)
  • 抗量子密码算法:保障未来信息安全的新盾牌
  • 比赛获奖的武林秘籍:06 5 分钟速通比赛路演答辩,国奖选手的血泪经验!
  • 《JavaScript权威指南第7版》中文PDF+英文PDF+源代码 +JavaScript权威指南(第6版)(附源码)PDF下载阅读分享推荐
  • Hadoop-25 Sqoop迁移 增量数据导入 CDC 变化数据捕获 差量同步数据 触发器 快照 日志
  • 手机和电脑通过TCP传输
  • Boost搜索引擎
  • 构建Memcached帝国:分布式部署策略与实践指南
  • uni-app 保存号码到通讯录
  • Kithara与OpenCV (二)
  • 观察者模式的实现
  • 海外短剧开源系统UNIAPP源码(支持多语言/海外支付/快捷登录)
  • 【Docker 系列】学习路线
  • Xcode多任务处理指南:释放iOS应用的并发潜能
  • 快速上手文心一言:让创作更轻松
  • 「面试题」如何实现一个圣杯布局?
  • 【Amaple教程】5. 插件
  • Android 控件背景颜色处理
  • - C#编程大幅提高OUTLOOK的邮件搜索能力!
  • ECMAScript6(0):ES6简明参考手册
  • JAVA之继承和多态
  • OSS Web直传 (文件图片)
  • 给Prometheus造假数据的方法
  • 目录与文件属性:编写ls
  • 你真的知道 == 和 equals 的区别吗?
  • 区块链分支循环
  • 跳前端坑前,先看看这个!!
  • Nginx惊现漏洞 百万网站面临“拖库”风险
  • PostgreSQL之连接数修改
  • ​LeetCode解法汇总307. 区域和检索 - 数组可修改
  • # AI产品经理的自我修养:既懂用户,更懂技术!
  • %check_box% in rails :coditions={:has_many , :through}
  • (pt可视化)利用torch的make_grid进行张量可视化
  • (介绍与使用)物联网NodeMCUESP8266(ESP-12F)连接新版onenet mqtt协议实现上传数据(温湿度)和下发指令(控制LED灯)
  • (每日一问)计算机网络:浏览器输入一个地址到跳出网页这个过程中发生了哪些事情?(废话少说版)
  • (免费分享)基于springboot,vue疗养中心管理系统
  • (免费领源码)Java#Springboot#mysql农产品销售管理系统47627-计算机毕业设计项目选题推荐
  • (一)认识微服务
  • (一)项目实践-利用Appdesigner制作目标跟踪仿真软件
  • (转)EOS中账户、钱包和密钥的关系
  • (轉貼) 資訊相關科系畢業的學生,未來會是什麼樣子?(Misc)
  • .NET C# 操作Neo4j图数据库
  • .Net Core 笔试1
  • .NET Framework与.NET Framework SDK有什么不同?
  • .net SqlSugarHelper
  • .NET 使用 XPath 来读写 XML 文件
  • .NET程序员迈向卓越的必由之路
  • .net使用excel的cells对象没有value方法——学习.net的Excel工作表问题
  • @四年级家长,这条香港优才计划+华侨生联考捷径,一定要看!
  • [Android]通过PhoneLookup读取所有电话号码
  • [bzoj4010][HNOI2015]菜肴制作_贪心_拓扑排序
  • [C#]DataTable常用操作总结【转】
  • [c++] C++多态(虚函数和虚继承)
  • [C++]四种方式求解最大子序列求和问题
  • [C++数据结构之看懂就这一篇]图(上)