当前位置：首页 > news >正文

Kaggle X光肺炎检测比赛第二名方案解析 | CVPR 2020 Workshop

news 来源：原创 2024/4/23 19:07:39

点击上方“迈微AI研发社”，选择“星标★”公众号

转载自：AI算法修炼营

在这里插入图片描述

论文地址：https://arxiv.org/abs/2005.13899
代码地址： https://github.com/tatigabru/kaggle-rsna
出自：密歇根大学；深圳大数据研究院

本文为Kaggle X光肺炎检测比赛第二名方案。在这项工作中，使用了基于Se-ResNext101为主干网络的RetineNet SSD网络模型, 同时使用了数据增广和多任务学习的技巧来实现肺炎区域的检测。

1. 简介

肺炎约占全世界5岁以下儿童死亡原因总数的16％，是世界领先的幼儿死亡原因。仅在美国，每年约有100万成年人因肺炎在医院接受治疗，并有5万人死于这种疾病。近期新型冠状病毒病2019（COVID-19）是一种危及生命的疾病，在2020年有成千上万人因此丧失生命。

肺炎的检测通常是由训练有素的专家通过检查胸部X光片（CXR）进行的。它通常表现为CXR上不透明性增加的区域或区域，通过临床病史，生命体征和实验室由于肺中存在其他状况，例如体液超负荷，出血，体液丢失，肺癌，放疗后或手术改变，因此对CXR肺炎的诊断非常复杂。如果可以的话，比较患者在不同时间点的CXR以及与临床症状和病史的相关性有助于诊断。

为了提高诊断服务的效率和准确性，近十年来广泛使用了用于肺炎检测的计算机辅助诊断系统。在许多医学图像分析任务中，包括检测，分类和分割，使用深度学习方法的性能优于传统的机器学习方法。

2. 数据集与评价指标

由美国国立卫生研究院临床中心公开提供了带有标签的胸部X射线图像和患者元数据的数据集。该数据库包含来自26684例独特患者的正视X射线图像。每幅图像都用相关放射学报告中的三个不同类别中的一个进行标记：“正常”，“无肺不透明/不正常”，“肺不透明”。

通常，肺部充满空气，当某人患有肺炎时，肺中的空气被其他物质所替代，即肺不透明症是指优先减弱X射线束的区域，因此在CXR上比应有的区域更不透明，这表明该区域的肺组织可能不健康。

“正常”类别包含健康患者的数据，未发现任何病理（包括但不限于肺炎，气胸，肺不张等）。“

“肺不透明”类别的图像显示肺部出现白色模糊云，并伴有肺炎，同时肺部混浊区域标有边界框。如果检测到一个以上的肺炎区域，则任何给定的患者都可以有多个框。肺部混浊有多种，有些与肺炎有关，有些与肺炎无关。

“无肺不透明/非正常”类别说明了在CXR肺不透明区域可见但未诊断出肺炎的患者的数据。图1显示了所有三个类别的CXR实例，这些类别标记有不健康患者的边界框。

在这里插入图片描述

评价指标

使用不同的交并比（IoU）阈值下的平均准确精度（mAP）来评估模型。阈值的范围从0.4到0.75，步长为0.05：（0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75）。

在这里插入图片描述

3. 本文模型

通常，机器学习竞赛中的解决方案大多数是基于大模型和多样化模型的融合、 test-time aug-mentation和pseudo labelling等方法实现的，但这些方法在现实应用中并不总是可行。

在测试时，我们通常希望最大程度地减少内存占用和推理时间。本文中提出了一个基于单个模型的解决方案，该模型集成了多个checkpoints。该模型使用了在ImageNet 上经过预训练的SE-ResNext101作为主干网络，整体网络框架使用的是 RetinaNet SSD 。

RetinaNet的框架整体是ResNet+FPN+FCN，它使用ResNet作为backbone来提取图像特征，然后从中抽取5层特征层来构建特征金字塔网络（FPN: feature pyramid network），最后接两个独立的全卷积网络（FCN: full convolution network）分别得到物体的类别信息和位置框信息。

在这里插入图片描述
△ RetinaNet框架

对于RetinaNet的网络结构，有以下5个细节：

（1）在Backbone部分，RetinaNet利用ResNet与FPN构建了一个多尺度特征的特征金字塔。
（2）RetinaNet使用了类似于Anchor的预选框，在每一个金字塔层，使用了9个大小不同的预选框。
（3）分类子网络：分类子网络为每一个预选框预测其类别，因此其输出特征大小为KA×W×H, A默认为9, K代表类别数。中间使用全卷积网络与ReLU激活函数，最后利用Sigmoid函数输出预测值。
（4）回归子网络：回归子网络与分类子网络平行，预测每一个预选框的偏移量，最终输出特征大小为4A×W×W。与当前主流工作不同的是，两个子网络没有权重的共享。
（5）Focal Loss：与OHEM等方法不同，Focal Loss在训练时作用到所有的预选框上。对于两个超参数，通常来讲，当γ增大时，α应当适当减小。实验中γ取2、α取0.25时效果最好。