USformer-Net：基于U-Net 和Swin Transformer 的脑部MRI 图像质量评价方法

2024-04-02 03:42李沛钊王同罕贾惠珍

现代电子技术 2024年7期

李沛钊，王同罕，贾惠珍，吴通

（东华理工大学信息工程学院，江西南昌 330013）

0 引言

脑部磁共振成像（Magnetic Resonance Imaging,MRI）是一种利用磁场和射频信号产生人体内部结构图像的技术，它在诊断和评估脑部疾病方面具有重要的临床价值，相较于其他医学成像方法的优势在于其无创无辐射、分辨率高、对软组织的对比度好、能够提供多种平面和三维的图像等[1]。但是由于成像设备的技术局限性、人为的操作失误以及患者的主观运动，可能导致图像出现噪声、模糊、失真、伪影等现象，从而降低图像的可读性和可诊断性[2]。

图像质量评价方法分为两类：主观评估，由人类进行判断；客观评估，使用数学算法进行计算[3]。客观评估进一步分为三类：全参考（Full-Reference Image Quality Assessment, FR-IQA），其中存在一个完美的参考图像用于与测试图像进行比较；半参考（Reduced-Reference Image Quality Assessment, RR-IQA），其中包含参考图像的部分信息；无参考（No-Reference Image Quality Assessment, NR-IQA），在没有参考图像的情况下对图像质量进行评估[4]。由于很少有完美图像可作为图像评估的参考，因此，NR-IQA 是医学图像最适合的评估方法。

目前，已经有许多针对不同类型和模态的医学图像质量评价方法被提出。文献[5]通过提取无监督的显著性图特征和有监督的卷积神经网络特征，并将两者结合起来训练SVM（Support Vector Machine）分类器进行视网膜图像质量评估。文献[6]利用图像中的空气背景评价三维MRI 图像质量。文献[7]首先提出的基于卷积神经网络的无参考图像质量评价模型。文献[8]提出DeepBIQ 网络，基于分类任务预训练和迁移学习的思路得到图像质量评价模型。文献[9]提出了一种基于机器学习算法的监督学习方法，用数值观测器对人类观测器进行建模，以评估图像质量。

早期的MRI 无参考图像质量评价算法大多针对特定形变，但是由于需要大量的特征提取和统计数据造成运行速度偏慢[10]。文献[11]对IQA 使用了两级MRI 融合度量，其中两个图像被融合以改进失真检测。为了开发自动深度学习方法，文献[12]引入了一种半监督技术，使用均值学习方法和感兴趣区域一致性，该技术专门用于胎儿大脑MRI 图像的无参考图像质量评价。此外，文献[13]使用半监督学习来解决图像分割任务中创建噪声注释的问题。

Transformer[14]是一种深度学习体系结构，已经在自然语言处理领域取得了突破性的进展，涉及识别、合成等多方面任务。文献[15]利用皮肤镜图像检测黑色素瘤，他们提议将SWN Transformer 与无参数注意模块SimAM 相结合。文献[16]提出了一种金字塔医疗Transformer，它通过处理多分辨率图像来捕获多范围关系。文献[17]在编码器中添加了选通轴向Transformer层，利用整体图像和补丁对应地学习全局和局部特征。基于Transformer 的方法也被应用于各种医学图像处理任务[18]。

本文在现有的医学图像质量评价方法和思路的基础上，首先创建了包含7 023 张图像且带有主观评价标签的数据集，并提出了一种全新的自动评估脑部MRI 图像质量的模型USformer - Net（U - Net and Swin Transformer based Neural Network）。该模型可自动评估患者的影像资料，以确保图像满足临床诊断的要求。本文提出的USformer-Net 模型在脑部MRI 图像质量评价流程中通过图像分割有效地选择了临床医生感兴趣区域，即具有实际临床诊断价值的区域，忽略了一些无关区域的噪声、失真等对整幅图像评价过程的影响，具有很好的实际使用价值和临床诊断意义。

本文主要贡献有：给出了一种脑部MRI 图像质量评价新途径，分割并提取患者MRI 图像中脑部主要结构区域，减少了无关区域图像质量对评价结果的影响，使其更加符合临床医生、放射科医生进行诊断的现实意义；提出了脑部MRI 图像评价模型USformer-Net，在准确率上相较于其他方法有显著提升；创建了带有主观评价标签的脑部MRI 图像数据集，提高了脑部MRI 图像质量评价领域数据集的质量，有助于进一步发展和改进MRI 图像质量评价算法。

1 模型设计及数据集构建

1.1 数据集构建

1.1.1 数据集预处理

本文使用的数据集是基于公开且已经授权使用的“Brain Tumor Dataset”数据集进行整理得到，该数据集最初由美国匹兹堡大学医学中心的两位神经外科医生（Dr.Katrin Bauer 和Dr.Stefan Bauer）和他们的团队收集和整理，从中提取到了7 023 张人类脑部MRI 图像。患者在带有相控阵线圈的3.0T MR 装置上进行扫描。

为了解决数据集中图像类别不平衡的问题，同时提高模型的泛化能力和鲁棒性，本文对数据集进行了数据增强。本文使用Matlab 中的imnoise 函数在原始图像上添加了三种不同的噪声：高斯白噪声；椒盐噪声和散斑噪声，其模拟了图像传感器或传输过程中的随机错误；伪影噪声，其模拟了MRI 成像过程中由于设备或患者运动等因素引起的条纹或鬼影现象。通过噪声程度的调节，分别模拟了模糊失真、噪声失真、对比度失真和压缩失真4种常见的失真情况。最终效果如图1所示。

图1 不同类型的噪声

1.1.2 数据集主观质量评价

为了评估数据集的质量和可诊断性，邀请了三位经验丰富的临床医生和放射科医生对处理后的7 023 张图像进行了主观评价，每位医生按照以下标准对每张图像进行了分类：图像是否包含了脑部的主要结构；图像中的主要结构、解剖结构、解剖细节是否清晰可见；图像是否能够满足临床诊断的需求。图像被分为三个等级：完美、一般和较差。图2 列举了成像质量较差以及较好的两幅脑部MRI 图像。其中图2a）为质量较差的MRI图像，图2b）为质量较好的MRI 图像。最终三位医生的评价结果如表1 所示。

表1 数据集主观评价结果

图2 不同成像质量的脑部MRI 图像

为了确定每张图像的最终标签，本文采用了以下规则：如果某张图像被三位医生中的至少两位标注为同一类别，那么该图像就被归为该类别；如果某张图像被三位医生分别标注为不同的类别，那么医生们会再次对该图像进行评价并进行讨论，直到达成一致或者有两位医生同意某一标签。最终得到的数据集如表2 所示。

表2 主观评价实验结果

1.1.3 数据集标签一致性检验

Fleiss′ kappa 系数是一种用于评估多个评分者对多个分类的标注一致性的统计量，它的取值范围为-1～1，其中0 表示随机一致性，1 表示完全一致性，小于0 表示评分者的一致性程度低于随机。Fleiss′ kappa 系数通常用于评估医学图像、自然语言处理、心理学等领域中评价结果的一致性[19]。计算公式如下：

式中：po是观察者之间的观察一致性的概率，po=其中N是观察者的数量，pi是第i个分类的比例；pe是预期的一致性概率，它是基于观察者的总体分类概率计算得出的，其中pj是第j个分类的总体比例。最终的一致性结果为0.81，表明医生们对图像质量的评价具有较高的一致性，证明了主观评价实验后得到的数据集的可靠性。

1.2 模型设计

本文提出的USformer-Net 模型包含图像分割模块以及图像质量评价模块两个模块。在图像分割模块使用了医学图像领域当下流行且具有良好效果的U-Net分割网络作为主干网络；图像质量评价模块使用了基于Transformer 改进的Swin-Transformer 作为主干网络。这种融合方式结合了U-Net 和Swin Transformer 的优势，利用U-Net 进行图像分割，提取出脑部MRI 图像中临床医生感兴趣的主要区域。利用Swin Transformer 进行图像质量评价，利用其全局最大池、卷积神经网络和自注意力模块提取出图像的质量特征，并进行分类和预测。为了使该模型在脑部MRI 图像质量评价更加有效，对两个主干网络进行了相应的更改，在1.2.1 节与1.2.2 节对这两个网络分别进行了详细介绍。USformer-Net 整体模型架构如图3 所示。

图3 USformer-Net 整体模型架构

1.2.1 基于U-Net的图像分割模型

U-Net[20]是一种基于全卷积神经网络的图像语义分割模型，它借鉴了自动编码器的思想，将输入图像映射到输出图像。U-Net 包含两条路径：一条是收缩路径（编码器），用于提取输入图像的特征；另一条是扩展路径（解码器），用于恢复输入图像的细节和空间信息。

随着医疗图像分割领域更加深入的研究，发现传统的U-Net 网络在脑部MRI 图像分割精度以及部署过程中存在一定的欠缺[21]，于是在本文提出的USformer-Net模型中对分割网络中的解码编码结构进行了更改，使其在满足较高分割精度的同时实现轻量化。在模型的编码部分对输入图像进行了大小为4×4 的无重叠片划分，嵌入层将特征维度映射到任意维度。其中网络具有4 个卷积块，网络的每个卷积块包含2 个卷积层，其内核大小为3×3。每个卷积块的滤波器大小在每个层之后变化，其中滤波器大小以16 的步长递增。卷积块的每一层由校正线性单元（ReLU）激活，同时在这些层之间应用批归一化步骤。改进后的U-Net 网络结构如图4所示。

图4 改进后的U-Net 网络结构

1.2.2 基于Swin Transformer 的图像评价模型

Swin Transformer 是一种可用于图像质量评估的新型深度学习模型[22]。它结合了全局最大池、卷积神经网络和自注意力模块，利用这些技术来检测图像质量和特征[23]。Swin Transformer 的结构分为三个主要模块：全局最大池、CNN 和自注意力模块。

首先，Swin Transformer 使用全局最大池化（GMP）模块从输入图像中提取特征，它采用不同的池大小和步长将原始图像分解成多个子图像，从而提取出更多的特征信息。

其次，Swin Transformer 使用CNN 模块将图像特征转换成更高级的特征。该模块使用多个CNN 层以提取出更多的特征，并有助于改进图像识别的准确性。

最后，Swin Transformer 使用自注意力模块来检测图像中的质量特征。相对于传统的Transformer 模型，Swin Transformer 模型具有更高效的计算、更好的可扩展性以及更好的可解释性。Swin Transformer网络结构如图5所示。

图5 Swin Transformer 网络结构

为了使Swin Transformer 模型更适用于脑部MRI 图像质量评价任务，本文对该模型进行了相应的改进。改进后的模型结构如图6 所示。

图6 改进后的模型结构

将特征金字塔（FPN）、兴趣区域匹配（ROI Align）及全连接网络（FC）结合在Swin Transformer 骨干特征提取网络中，每个FPN 阶段的输出代表不同尺寸的特征图，经过上采样后与上一特征图融合，获得包含不同尺寸缺陷特征的新特征图。ROI Align 则将特征图经过池化综合转换为向量，再经过全连接网络进行分类预测，获取检测结果。

特征金字塔是一种用于多尺度目标检测的技术，可以在不同尺度上提取图像特征，从而提高模型对于不同尺度物体的识别准确率。兴趣区域匹配网络是一种用于准确地对图像中的兴趣区域进行特征提取的方法。兴趣区域匹配网络可以帮助模型准确地提取图像中不同区域的特征，从而提高评价的准确性。全连接网络是一种用于分类的神经网络结构，可以对输入的特征进行分类。全连接网络可以帮助模型将提取的特征进行更加准确的分类，从而得出最终的评价结果。相较于原始Swin Transformer 网络，改进后的网络具有更好的特征提取能力、更好的感受野、更好的检测性能以及更好的泛化性能。

2 实验及其结果分析

将分割后并提取的三类图像按照7∶2∶1 的比例分为训练集、验证集和测试集。模型评价指标选取了敏感性（Sensitivity）、特异性（Specificity）、准确率（Accuracy）、精度（Precision）、召回率（Recall）和F1评分（F1-score）。计算公式分别如下：

式中：TP 为真阳性样本的数量；即模型预测为正，实际为正的样本数量；FP 为预测为正，实际为负的样本数量；FN 为预测为负，实际为正的样本数量；TN 为预测为负，实际为负的样本数量。

2.1 分割实验

从数据集中提取了1 022 张图像（三类图像以随机数目包含其中），使用标注工具进行人工标注脑部区域，生成了1 022 个Json 文档，并按照7∶2∶1 的比例分为训练集、验证集和测试集输入到改进后的U-Net 网络中。分割效果如图7 所示。

图7 脑部MRI 图像分割效果图

最终效果显示该模型能很好地分割并提取人类脑部MRI 图像中的感兴趣区域，使接下来的评估实验不用受到无关背景的影响。

2.2 图像质量评价结果

图8 是在本文创建数据集集中进行训练和测试时的准确率和损失变化。从图中可以看出，随着训练轮数的增加，准确率不断提高，损失率逐渐降低，最终趋于平稳，在测试集上达到最佳效果。

图8 数据集的训练过程

本文将改进后的网络模型与当下应用于医学图像质量评价的主流模型ResNet-50[24]、Swin Transformer、Transformer、DenseNet121[25]以及MRI 图像质量评价模型CNNS[26]使用相同数据集的结果进行了对比，对比结果如表3、表4 所示。

表3 USformer-Net 性能表现%

表4 主流模型性能表现

由表3 可知，该模型对完美质量图像、一般质量图像和较差质量图像的分类准确率分别为86.95%、87.49%和88.08%，平均分类准确率为87.84%。该模型在Precision、Recall 和F1-Score 上的平均值也分别达到了91.84%、92.05%和91.99%。模型整体效果比较出色，能应用于具体的临床环境中。从表4 可知，在脑部MRI 图像质量评价任务中，本文提出的模型相较于其他主流模型，在平均分类准确率上有所提升。

3 结论

医学图像质量评价是一个主观问题，没有唯一的标准来评估医学图像是否可用于临床诊断。同时，由于图像的可变性，脑部MRI 质量评估是一项具有挑战性的任务，目前还没有广泛接受的模型和自动化程序用于此研究。另外，一个有效的质量评估模型需要大量特定数据来训练网络，现有的公开数据集并不能完全满足医学图像质量评价领域的研究，这也导致了该领域的研究进展缓慢。

在本文的研究中，首先创建了一个丰富的带有主观评价标签的脑部MRI 图像数据集，改善了医学图像质量评价领域数据集不充足的现状。本文提出了一种结合U-Net 和Swin Transformer 评估脑部MRI 图像质量的新方法。与现有的脑部MRI 图像质量评价方法相比，本文提出的方法更多关注医学图像的特殊性，侧重于感兴趣区域的提取与评价。从最终评价结果来看，本文提出的脑部MRI 图像自动评价模型USformer-Net 的性能也更加优异。

致谢：此次图像主观评价实验的数据结果获取得到了来自四川省人民医院、西南医科大学附属医院的黄钰恺、罗毅伟、范家瑞三位临床医生的帮助，在此表示衷心的感谢。

注：本文通讯作者为王同罕。