TransAS-UNet:融合Swin Transformer和UNet的乳腺癌区域分割

2024-03-20 10:32徐旺旺许良凤李博凯周曦律娜詹曙
中国图象图形学报 2024年3期
关键词:肿块注意力卷积

徐旺旺,许良凤,李博凯,周曦,3,律娜,詹曙

1.合肥综合性国家科学中心人工智能研究院,合肥 230601;2.合肥工业大学计算机与信息学院,合肥 230601;3.安徽水利电力职业技术学院,合肥 231603;4.安徽医科大学第一附属医院,合肥 230022

0 引言

癌症是世界人口死亡率最高的主要原因,而在女性中乳腺癌是最常见的癌症疾病(Bray等,2018),世界卫生组织报告称,每年约有62.67 万女性死于癌症相关疾病,2018 年诊断出200 多万新病例(Bray等,2018)。而在早期对患者病情的发现与治疗,可以大大降低死亡率和医疗成本,这对患者和医疗资源紧缺的国家来说具有至关重要的作用。尽管医疗水平不断发展,但现存的医疗手段仍存在很多弊端。主要使用的检查手段包括乳腺X射线、磁共振成像、热成像和超声波成像,这些成像结果只能确定癌症可疑区域,并不能判断患者是否患癌和癌症级别(Saad 等,2016)。在早期乳腺癌治疗中,X 光检查被认为是最有效的方法(George 和Sankar,2017),可用于检测癌症预后早期良性和恶性肿块,然而肿瘤检测是基于对乳房感兴趣区域(region of interest,ROI)的精确分割。因此,乳房X 线计算机辅助诊断中乳房肿块的分割在医学图像的定量和定性分析中起着重要作用,它对早期癌症的分析和治疗有直接影响。

早期Zhang 等人(2010)基于从像素的共现矩阵计算出的能量描述符(Haralick 描述符),使用纹理分析来识别乳房X 线照片中的可疑肿块;Ke 等人(2009)引入了小波变换模最大值,以自动方式识别乳房X 线片中的肿块,并通过提取其轮廓来细化检测到的肿块;Jai-Andaloussi 等人(2013)首先使用迭代阈值算法在乳房X光检查中发现可疑肿块的感兴趣区域。然后从应用BEMD(bivariate empirical mode decomposition)二维经验模式分解方法获得的第1 模式中提取感兴趣区域的轮廓,最后通过提取的轮廓来识别肿块;Yang 等人(2023)提出了一种改进的多策略差分进化算法,采用基于新型差分进化、二维Kapur 熵和二维直方图的多级阈值图像分割框架来分割肿块。

在传统的机器学习方法中,主要采用有监督和无监督方法分割乳腺癌肿块,从输入图像学习不同具有代表性的特征来学习和预测癌症。Salih 和Kamil(2018)提出了一种基于模糊集和阈值技术的乳房X 光图像分割方法,该方法产生了86.0%的Dice 系数、66.0%的召回率和20.0%的准确度;Cardoso 等人(2017)提出了乳房X 光图像中的肿块分割,并与深度和定制特征进行比较,结合CRF(conditional random fields)和SSVM(structured support vector machine)的深度学习特征的第2和第3模型。

然而,随着深度学习在医学影像上的发展,Sun等人(2020)开发了一种新的注意力引导密集上采样网络AUNet,用于整个乳房X 光检查中的乳房肿块分割;经典的医学分割网络UNet(Ronneberger 等,2015)主要采用具有跳跃连接的对称编码—译码结构;按照这一技术路线,UNet++(Zhou 等,2018)、Res-UNet(ResNet-UNet )(Xiao 等,2018)和UNet3+(Huang 等,2020)等各种延伸网络用于医学成像模式的图像和视频分割。Cho 等人(2022)设计了一个乳腺肿瘤集成分类网络(breast tumor ensemble classification network,BTEC-Net)来对是否包含乳腺肿瘤进行分类;Iqbal 和Sharif(2023)提出一种结合数据扩展网络(dynamically expandable networks,DEN)、概率映射生成网络(probabilistic mapping generation,PMG)和U 型金字塔扩张网络(U-shaped pyramid-dilated network,PDF-UNet)的半监督学习方案;Nelson 和Krishna(2023)开发一种使用基于深度学习方法的自动核分割算法,利用星凸多边形方法的像素级分析获得更准确的分割结果;Chen 等人(2023)开发了一种新的细化残差卷积网络,该网络利用不同膨胀率来捕捉更多的全局信息。

在分割阶段,使用残差特征选择UNet(residual feature selection-UNet,RFS-UNet)对BTEC-Net 分类,为异常的图像进行专属分割,He 等人(2023)提出了一种混合CNN-Transformer 网络(hybrid CNN-Transformer network,HCTNet)来提高超声图像中乳腺病变的分割。但是实际的临床医学图像分辨率不高,并且上下文不相连,很少关注不同区域内部和相邻之间的联系,忽略整个图像的全局特征和远程信息交互,导致对肿瘤分割存在误差。在本次实验中,不仅将Transformer结构与普通的卷积层之间作为模块相连,更关注在不同采样之间使用Transformer 来融合特征信息,高效地将两个模块相结合,从而在模型训练中各自体现网络的优势,识别的乳腺肿块很少有分割和分类相继进行,对分割的不同类型的肿瘤缺少评定。本文提出TransAS-UNet(Transformer atrous spatial pyramid pooling Swin UNet )网络,实现不同层次的特征信息交融和卷积层局部信息的自我关注,同时提出一种新的多尺度特征图融合策略,采用具有跳跃连接的Transformer增强了空间域信息表示。实验表明,本文提出的分割算法优于对比方法,性能指标得到提升。

本文的主要贡献如下:1)提出新的高效分类网络TransAS-UNet,在上下采样阶段基于UNet 分割网络引入Swin 和ASPP(atrous spatial pyramid pooling),可以实现对不同层次的深浅特征信息交融,增加卷积层的感受野来达到局部信息的自我关注。2)为了准确地捕获空间域信息,通过在跳跃连接上引入Transformer 来增强空间域信息,构建了一种新的多尺度特征图融合策略,以增强高维和低维空间信息的融合。3)在分割出乳腺癌的肿块上采用第2 阶段分类网络,基于ResNet50(residual network 50)上使用SK(selective kernel)卷积代替模型中间卷积层,并结合SE(squeeze-and-excitation)对输入图像的通道分配权重,使用ERF(error function)梯度下降和标签软化等方法实现精准分类。4)本文模型在乳腺癌X光数据集INbreast 上实现肿块的准确分割,交并比(intersection over union,IoU)值达到95.58%,Dice 系数为93.45%,与其他分割模型相比提高了4%~6%,将分割的肿块进行四分类,Accuracy 值达到95.24%。在许多临床医学分割和分类应用中,本文方法比大多数模型具有更高的精度。

1 方 法

实验中,基于UNet 结构的上下采样存在不同层次的特征信息交融(徐磊 等,2023)和卷积层局部信息的自我关注等问题,本文采用了Swin Transformer结构,该结构具有滑窗操作和层级设计,主要由Window Attention 模块和Shifted Window Attention 模块组成,可以实现将输入乳腺X 光特征图切片成多个窗口,根据自我注意力来分配每个窗口的权重,同时也能对整个特征图的窗口位置进行移动,实现同一特征图内部的信息交互。本文在上下采样过程中各使用4 个Swin Transformer 结构,在切片融合中使用金字塔结构ASPP(Chen 等,2018)替换普通的特征图通道相加操作,能够运用多个卷积核对原图卷积得到不同的特征图再通道相融,给定的输入以不同采样率的空洞卷积并行采样,实现多个比例捕捉图像的上下文信息。为了更好地融合高维和低维空间信息,本文提出了一种新的多尺度特征图融合策略,采用具有跳跃连接的Transformer 增强了空间域信息表示。对于乳腺X 光图像,需要识别的肿瘤区域相对于整个乳腺部位占比较小,通过增加局部信息关注可以有效训练。经过分割网络对乳腺癌肿块分割得到二值图像作为第2 阶段分类网络的输入,在基线模型ResNet50(He 等,2016)上融入SK 和SE多种注意力,通过非线性方法融合来自不同核的特征,进而实现感受野不同尺寸的调整,在数据过拟合中添加ERF 梯度下降和标签软化方法。图1展示了本文实验采用的模型框架。

图1 实验分割和分类的网络框架Fig.1 Network framework for experimental segmentation and classification

1.1 Conv 模块

为了处理复杂的医学图像分割任务,本文使用卷积块作为编码器和解码器的每一层。该模块类似于小型UNet结构,这样可以提取更多细节。卷积层进行的处理就是卷积运算(文可 等,2023),对于输入数据卷积运算以一定间隔滑动滤波器的窗口,将各个位置上滤波器的元素和输入的对应元素相乘再求和,并将这个结果保存到输出的对应位置。将这个过程在所有位置都进行一遍,就可以得到卷积运算的输出。

在分割结构中,卷积模块主要实现两个步骤:对整幅图像的切片处理(侯佩和齐亚莉,2021)和嵌入向量。首先利用二维卷积将stride,kernelsize设置为patch_size 大小,patch_size 在本次实验中前期预处理为4,这样经过卷积操作形成4 × 4 个尺寸大小为(H/4,W/4)特征图,乳腺癌X光数据集中大部分的肿瘤较小并且像素值较大,通过切片操作可以加快模型的训练和减小单次训练参数。接着对四维向量(N,C,H/4,W/4)利用降维函数实现维度重建(N,C,H/4 ×W/4),再交换通道维度和特征图维度的位置,最后经过归一化函数计算每幅特征图的均值和方差。具体卷积模块流程如图2所示。

图2 卷积模块Fig.2 Conv block

1.2 STA(Swin Transformer and ASPP)网络

随着Transformer在自然语言处理领域的发展,其在计算机视觉方面也得到应用,同时也存在很多挑战。一方面视觉实体变化大,在不同场景下视觉Transformer 性能未必很好;另一方面图像分辨率高、像素点多,Transformer基于全局自注意力的计算导致计算量较大。Swin Transformer(Liu等2021)基于以上问题采用滑动窗口的方法来实现局部性的自我注意力,为了解决传统的Transformer都是基于全局来计算注意力的计算量大问题,Swin Transformer则将注意力的计算限制在每个窗口内,进而减少了计算量。利用层级设计将两级Transformer相连,可以使模型适合不同的视觉实体。图3显示了Swin Transformer结构,由归一化(layer normalization,LN)层、残余短连接、多层感知层(multi-layer perceptron,MLP)、基于窗口的多头自我注意力和基于移位的多头自我注意力组成。

图3 Swin Transformer 模块Fig.3 Swin Transformer block

多头自我注意力可以通过提供编码远距离依赖或异构交互的能力来补充骨干网络(Cao 等,2019),与Transformer全局注意力计算方式不同的是加入了相对位置编码,计算为

式中,Q,K,V分别表示query 矩阵、key 矩阵和value矩阵,B中的值取自偏置矩阵,F代表softmax 函数,S代表计算权重。普通的切片注意力值计算是将其分为多个有序的窗口来分配权重,为了更好地与其他窗口进行信息交互,在Swin Transformer 第2 阶段是采用移位窗口,经过打乱切片的特征图可以学习到不相邻区域之间的信息。

如图4 所示,乳腺X 光片经过移位窗口操作带来的效果是窗口数增加。左边是没有重叠的Window Attention,右边是将窗口进行移位的Shift Window Attention。移位后的窗口包含了原本相邻窗口的元素,但也带来窗口的个数翻倍,由原本4 个窗口变成了9 个窗口。而最后计算方式是通过对特征图移位,并给Attention 设置mask 来间接实现的,能在保持原有的窗口个数下实现结果等价。对于乳腺X光图通过移动方式得到9 个窗口数,对每个窗口计算自注意力方式采用循环移位操作,如图5 所示,整幅图像分为4 部分,经过移位左上角切片移动到右下角,使得相邻的部分进行信息交互。

图4 移位窗口的实现方式Fig.4 Shift window implementation

本文在编码和解码阶段都使用两个连续的Swin Transformer,降低了普通分割网络UNet 中卷积层的局限性,使网络更好地让全局和远程语义信息交互,既能学习到癌症肿块和其他肌肉之间的不同,又能寻找自身的特征信息。在进行不同层次特征信息提取之前,采用空洞卷积金字塔结构ASPP(Zhao等,2017)将不同切片之间的信息融合再送入下一个Swin Transformer block。在每个阶段开始前做降采样,用于缩小分辨率,调整通道数,进而形成层次化的设计,同时也能节省一定运算量。图6 是ASPP 金字塔模块结构。该网络将Swin Transformer 中的patch merging 中的全连接层替换为4 种卷积核进行通道数相加,其中包括普通的1 × 1 卷积、padding 和dilation 为6,核大小为3 × 3 的卷积、padding 和dilation 为12,核大小为3 × 3 的卷积、padding 和dilation为18,核大小为3 × 3 的卷积,最后将这4 层的输出进行concat,并用1 × 1卷积层降维至给定通道数,得到最终输出。在3 × 3 的空洞卷积核中设置多个膨胀因子,目的是获取不同尺度的感受野,实现自由的多尺度特征提取。在下采样过程中,为了满足分割网络的输入尺寸要求,通常采用切片的方式输入网络,而每个切片在Swin Transformer 中自我注意力计算量过大,会设置不同的窗口分别计算,ASPP 就是对多个窗口空洞卷积,在输入尺寸多变的情况下实现输出固定。

1.3 Transformer 模块

原始的Transformer 应用在自然语言处理领域,解决了长距离的信息不能有效地提取和记忆,导致信息大量丢失和在引入Attention 之后对关系的捕捉不足而出现翻译效果不理想等问题,Transformer 引入self-attention 的机制将3 种关系全部进行学习,提出multi-head attention 机制,分别学习对应的3 种关系,使用了全Attention 的结构;对于词语的位置,Transformer 使用positional encoding 机制进行数据预处理,增大了模型的并行性,取得了更好的实验效果。在本次实验中,不仅将Transformer 结构与普通的卷积层之间作为模块相连,更关注在不同采样之间使用Transformer 来融合特征信息,高效地将两个模块结合,从而在模型训练中各自体现网络的优势。之前的研究特征融合是通过简单地拼接特征来实现的,但特征金字塔(feature pyramid network,FPN)(Lin等,2017)通过从网络架构的不同层提取不同尺度的特征来进行预测,从而为多特征融合创建了一种新的特征金字塔方法。此外,FastFCN(faster fully convultional network)(Wu 等,2019)通过在卷积后组合不同大小的特征而更具语义。对于网络来说,高级和低级特征信息是互补的,需要高效地结合各自的优势。本文还在Transformer的输入部分引入位置编码赋予每个切片,然后利用dropout 防止模型的过拟合,再将变换器块添加到跳跃连接,防止编码器部分在更丰富的全局卷积特征的情况下将特征图分辨率降得太低。图7 显示了Transformer 模块的具体实现过程。通过这种设计,防止乳腺癌X 光图像经过下采样过程像素值较高的癌症区域信息丢失,也是为了对正常乳腺组织和非正常组织的特征差异对比,从而实现有效分割。

图7 Transformer 结构Fig.7 Transformer block

该模型中首先对输入的数据进行嵌入,将嵌入后的结果融入位置信息后输入到网络中,得到XL-1。输入信息输入到注意力层中来捕获多维度的上下文信息,得到的张量参数经过短连接操作与输入信息融合,计算为

式中,M代表多头注意力(multi-head attention,MHA)机制模块,XL和XL-1代表Transformer模型的输出,N和M是归一化和多层感知机操作,式中自注意力计算为

式中,Q类比于询问,K类比于索引,V类比于回答,d是特征值,F代表通过softmax 函数将原始权重标准化,A是自注意力权重。

1.4 基于ResNet50多注意力网络

本文基线模型ResNet50(He 等,2016)的网络结构如图8 所示,网络中包含了49 个卷积层、1 个全连接层。该网络与其他模型相比不仅能够解决梯度消失问题,而且具有较少的参数量和计算量。同时考虑到处理复杂的图像信息时,实验中加入了SE(Hu 等,2017)通道注意力机制,可以让网络聚焦于感兴趣的癌症区域,提高分类效果。然而标注的卷积神经网络中每个神经元的感受野是相同的,为了使神经元对于不同尺寸的输入信息能够自适应地调整其感受野的大小,本文采用SK(Xiang 等,2019)卷积替换普通3 × 3 卷积,通过非线性的方法融合来自不同核的特征,进而实现感受野不同尺寸的调整。在数据处理方面,本文对部分类别较少的样本进行随机翻转和裁剪,再进行所有的数据归一化操作。同时还进行了标签软化,将真实的硬标签平滑处理以及将损失函数分配不同的注意力权重来平衡正负样本。在学习率衰减方式上,本文对比了随机梯度下降和高斯误差调度器。

图8 ResNet50网络结构Fig.8 ResNet50 network structure

SE 模块主要是由压缩和激励组成,在输入图像的通道位置上赋予一定的注意力权重,克服卷积运算局部感受野和通道所占的重要性不同带来的缺点,借助于卷积运算实现全局提取特征。SE 模块结构如图9所示。

图9 SE网络结构Fig.9 SE network architecture

与SE 模块相同的是,SK 也是通道注意力,如图10所示,但是生成的注意力权重方式有差异,实现对不同尺寸的输入特征自适应调整感受野大小。在加入模型中,SK卷积是通过替换普通的卷积使网络在训练时选择合适的卷积尺寸,而SE则通过给予通道权重。SK 主要分为分割、融合和选择操作(Xiang 等,2019)。

图10 SK网络结构Fig.10 SK network architecture

本文在分割结果数据集上进行多模型对比,以ResNet50 为基线模型,然后添加SK 和SE 注意力方法来对比实验指标,SK 卷积主要在每个BottleNeck替换3 × 3卷积,将每层相同大小感受野的卷积层转化为神经元对于不同尺寸的输入信息进行自适应调整感受野大小(马吉权 等,2022),从而在卷积层可以提取更多的图像特征。通过在此基础上增加注意力SE,同时引入高斯误差梯度下降法、标签平滑、部分数据增强技术和损失函数赋予权重4 种方法来提高模型的精度。

2 实 验

2.1 数据集

INbreast 数据库是一个乳腺摄影数据库,其中的图像是从大学医院(葡萄牙波尔图的乳腺癌中心,圣若昂医院)的乳腺癌中心获取的。INbreast 共有115 例(410 幅图像),其中90 例来自双乳女性(每例4 幅图像),而25 例来自乳房切除术患者(每例2幅图像)。包括几种类型的病变(肿块、钙化、不对称和变形),专家还以XML(extensible markup language)格式提供了精确的轮廓。像素尺寸为70 mm,对比度分辨率为14位。图像矩阵是3 328 × 4 084像素或2 560 × 3 328 像素,图像以DICOM(digitalimaging and communications in medicine)格式保存。数据库包括正常乳房X 光片、肿块乳房X 光图、钙化乳房X 光照片、乳房变形、不对称和多个发现的图像,如图11所示。

图11 INbreast数据库中的不同类型所占的比例饼状图Fig.11 Pie chart of the proportion of different types in the INbreast database

良性钙化大于与恶性肿瘤相关的钙化,通常较粗糙,为圆形缘光滑,更容易看到。与恶性肿瘤相关的钙化通常很小。结构畸变被定义为正常乳房X线摄影模式的局部中断,通常表现为星形畸变,没有明显的肿块。不对称性缺乏肿块的凸状外边界,可以用3 种方式表示:大小不对称、局部不对称和全局不对称。对所有数据集先进行DCOM 到PNG 的格式转化,然后作为模型训练的原图,根据其提供的不同类型癌症分割图为标签,同时读取XML 文件以确定每个癌症区域的精准位置。为了验证模型的有效性和在训练过程中是过拟合还是欠拟合,在实验中对数据集按7∶3划分为训练集和测试集。图12显示了该数据集中的一部分乳腺癌X光图像。

图12 INbrest部分乳腺癌X光图Fig.12 INbrest partial breast cancer X-ray

2.2 评价指标

在分割和分类实验中,本文使用不同的评价指标来衡量网络模型的性能,同时与其他相关模型进行对比。主要评价指标为Dice 系数、准确率、精确率、召回率和混肴矩阵。在评价指标中有4 个主要变量,TP(true positives)是真正类、TN(true negatives)是真负类、FN(false negatives)是假负类、FP(false positive)是假正类。

医学图像研究中最常用的指标是骰子系数(Dice),是一种集合相似度度量函数,用于确定两个样本的相似程度,在医学图像分割上它从边界获取细粒度信息至关重要,其计算方法为

准确率可以衡量预测正确的正负样本占总样本的比例,具体为

为了解决样本不平衡性使得准确率不能完全评价模型的优劣性的局限,本文采用部分数据增强方式使准确率具有代表性,在多分类中准确率可以代表模型对所有类别的整体评价。

同时,本文将交并比(IoU)作为分割评价标准,对于图像分割而言是计算预测掩码和真实掩码之间的交并比,具体为

为了衡量像素点集之间的相似度,本文采用双向豪斯距离,式(9)中A和B分别代表两组点集合,为了排除离群点之间的影响,使用95%分位最大值距离作为评价指标,用HD95表示,其计算式为

在分类模型中,本文还将精确率和召回率用来衡量模型的有效性。精确率指当模型预测为正样本,实际为正样本的概率,计算式为

召回率是当真实标签为正样本,预测为正样本所占的比例,计算为

2.3 实验结果

2.3.1 肿瘤区域分割

对乳腺癌肿瘤区域分割的过程中,实验中将转化的图像格式和二值化标签送入分割网络,通过4次采样图像分辨率减少和通道数成倍增加,网络特征图从轮廓、形状等浅层特征到纹理、肿瘤的部位,编码阶段以STA 网络结构作为提取特征图的主要方法,关注肿瘤的全局特征信息,以增加卷积层的感受野,获取更多的局部自我关注。在上采样过程中还原图像的分辨率,与编码阶段同层次的特征信息进行交融送入CST(convolution and Swin Transformer)模块中,每层输出的特征图都可以作为分割图像的结果,因此本文利用多尺度融合策略避免重要信息的丢失。最后的肿瘤分割效果可以准确地对X光图像区域进行分割,同时与其他分割模型UNet、UNet++、Res18_UNet、MultiRes_UNet(Ibtehaz 和Rahman,2020)、Dense_UNet(Kaku 等,2019)5 种网络进行对比,分割效果图更准确,边缘轮廓更清楚,如图13所示。

图13 不同模型分割对比图Fig.13 Comparison of segmentation results of different models((a)input;(b)our;(c)MultiRes_UNet;(d)Res18_UNet;(e)UNet++;(f)Dense_UNet;(g)UNet;(h)ground truth)

为了网络训练更加鲁棒,模型参数更加准确,本文在网络模型中设置的训练轮数为1 500,但大多数模型在前1 000轮就已经取得比较好的分割结果,后续的训练结果反而变差。模型的其他参数都保持一致,其中batch_size 为4,无监督,学习率为0.001,下降方式为余弦函数图像下降法,优化器为随机梯度下降法。输入数据做统一预处理,主要是归一化、随机旋转90 度、上下和水平翻转、亮度增强等数据增强方法,损失函数为交叉熵。本文首先对比了不同模型在INbreast 数据集上训练集和测试集的结果,以7∶3 划分总的数据集,以IoU 为指标可以看出,训练数据在模型中表现良好,但在测试集上IoU 与训练集相差10%~15%,如表1所示。

表1 不同模型IoU对比Table 1 Comparison of IoU among different models

经过多次实验得出,指标的差异性原因是模型的过拟合,如图14 所示,模型的过拟合问题与模型结构关系不是很明显,所以重要原因是模型设置的参数和优化过拟合的方法。本文在此基础上改变学习率的变化方式,以0.1为初始值,设置每10轮指标未得到提升,就开始学习率衰减,使用的衰减方式为ERF下降法,同时在计算损失函数时,输出像素值利用标签软化的方式将其不局限于0 和1,缩小损失值,在数据增强上增加多种方法来减少过拟合现象。

图14 不同模型在训练集和测试集上IoU对比Fig.14 Comparison of IoU among different models in training set and test set

利用上述方法解决过拟合问题,本文在不同模型上重新训练,以Dice 和IoU 作为评价标准,结果如表2所示。可以看出,TransAS-UNet相比于其他5种模型,IoU 指标有4%~6%的提高,达到95.58%,Dice系数为93.45%,在降低HD95方面相比于其他模型也具有优势。从实验中可以看出,本文方法能够取得最佳结果,利用Swin-Transformer、金字塔结构ASPP、将Transfomer 作为同层之间的短连接以及构建多尺度融合策略能促进乳腺癌肿瘤区域的分割。本文方法优于对比方法。

表2 不同模型测试集上的指标对比Table 2 Comparison of indicators of different models on test set

2.3.2 实验对比

为了探究视觉大模型SAM(segment anything model)在乳腺癌X 光数据集的有效性,本文将其放在同等设备环境中进行模拟,结果如表3 所示。可以发现,IoU及其他指标不如TransASwin-UNet模型,说明SAM 模型(Kirillov 等,2023)在涉及小目标分割上存在弊端,同时对于尚未见过的乳腺癌X 光图像缺少泛化能力。

表3 提出的模型与大模型SAM实验效果对比Table 3 Comparison of experiment results between the proposed model and the large model SAM

同时,为了进一步验证模型的有效性和泛化能力,选用MIAS 乳腺癌X 光数据集进行对比实验,该数据集包含 161 名患者的左右乳房图像,由 322 幅图像组成,主要包含3种类型:正常 208 个、良性63个和恶性(异常)51 个。选用在INbreast数据集上效果较好的UNet、Res18_UNet、Dense_UNet 3 种模型进行对比,最终对比实验结果如表4 所示。由实验结果可以看出,本文TransAS-UNet 模型在提升IoU 和减少HD95距离上效果明显,说明该算法在乳腺癌数据集上具有良好的分割性能,通过结合局部信息重要特征的关注和全局信息之间的交互可以实现肿瘤的有效分割。

表4 在MIAS数据集上实验效果对比Table 4 Comparison of experimental effects on MIAS dataset

2.3.3 肿瘤类型识别

经过分割模型得到较准确的癌症区域二值图,根据INbreast 数据集介绍可以找出每幅癌症图像所属的类别,本文将其分为正常、肿块、变形和钙化,对每个类别给予标签,再送入分类网络(阮旭凌 等,2022)。本文采用的分类模型以ResNet50 为基线模型,通过在此基础上增加两种不同的注意力SE、SK,SK 卷积主要在每个BottleNeck 上替换3 × 3 卷积,将每层相同大小感受野的卷积层转化为神经元,对于不同尺寸的输入信息自适应调整感受野大小,从而在卷积层可以提取更多的图像特征;而SE 属于通道注意力,可以在像素值输出之前对各个通道赋予权重。同时本文引入了高斯误差梯度下降法、标签平滑和部分数据增强技术3 种方法来提高模型的精度。高斯误差梯度下降法解决随机梯度在梯度下降时具有随机性的问题,每次迭代的损失函数虽然朝着全局最优但并不是局部最优,而我们既要寻找全局最优又要局部最优;标签平滑是利用软标签解决预测错误导致误差大、增加模型的泛化能力和解决过拟合问题;部分数据增强技术缓解四分类中样本不平衡,减少少量样本的预测误差。

本文的实验结果在INbrest 公开数据集上采用SK-SE-ResNet50 准确率达到95.24%,精确度达到94.80%,召回率为95.80%。由表5 可见,增加注意力可以促进网络更快提取特征来区分不同类别的差异。

表5 不同模型分类指标对比Table 5 Comparison of classification indexes of different models /%

3 结论

本文提出了一种新的基于UNet 和Transformer的TransAS-UNet 结构的乳腺癌区域分割和分类方法,该结构主要分为肿瘤区域的分割和肿瘤类型的识别。在分割过程中类比于UNet结构模型,将Swin Transformer和ASPP模块替换普通的卷积层,利用移位窗口和多头注意力达到图像切片内部的特征信息交融和不相邻区域之间的信息互补,同时ASPP结构可以在增加感受野的情况下达到局部信息的自我关注。在不同层之间本文引入Transformer结构来关联信息,防止在下采样卷积中浅层重要信息的丢失,最终的体系结构不仅继承了Transformer在学习全局语义关联方面的优势,还使用了不同级别的特征,以使模型保留更多的语义和更多的细节。分割模型得到的二值化图像作为分类网络的输入数据集,本文可以实现不同类别的乳腺癌肿瘤的识别,该分类模型以ResNet50 为基础,添加多类型注意力模块和防止过拟合操作,SE、SK两种注意力可以优化网络参数,使其只关注分割区域差异,从而提高模型的效率。

本文模型在乳腺癌X 光数据集INbreast 上实现肿块的准确分割,并与UNet、UNet++、Res18_UNet、MultiRes_UNet、Dense_UNet 5种分割结构进行对比,在同一个参数环境中,IoU值达到95.58%,Dice系数为93.45%,与其他的分割模型相比提高了4%~6%,本文将分割的肿块进行四分类,Accuracy 值达到95.24%。

在未来,将聚焦于实现乳腺癌分割和分类网络一体化,网络参数和结构可以不用二阶段分步训练,提高网络的效率。同时,将在分割数据集预处理上采用ROI,这样可以避免无用特征信息的多次提取。为了验证模型的广泛性,后面的工作也会在其他癌症数据集上进行实验。相信利用深度学习技术可以实现医学上更多难关突破,减少医生的工作量,给临床带来更大的价值。

猜你喜欢
肿块注意力卷积
超声造影在周围型肺肿块穿刺活检中作用
让注意力“飞”回来
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
乳房有肿块、隐隐作痛,怎么办
基于傅里叶域卷积表示的目标跟踪算法
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
慢性肿块型胰腺炎诊断和外科治疗
一种基于卷积神经网络的性别识别方法