多尺度融合增强的纵膈淋巴结超声弹性图像分割

2024-03-20 10:32周奇杨行田传耕唐璐惠雨
中国图象图形学报 2024年3期
关键词:解码器编码器分支

周奇,杨行,2,田传耕,唐璐*,惠雨

1.徐州医科大学医学影像学院,徐州 221004;2.中国矿业大学信息与控制工程学院,徐州 221116;3.徐州工程学院信息工程学院(大数据学院),徐州 221018

0 引言

肺癌是全球发病率和死亡率最高的恶性肿瘤之一,其治疗方式的选择与分期密切相关,而判断淋巴结是否受累是明确癌症分期的关键因素之一(Detterbeck 等,2016)。大量研究(Gu 等,2017;王虹 等,2018;张芳 等,2019)表明相较于传统超声成像,支气管镜下超声弹性成像能够更准确反映纵膈淋巴结信息,以不同颜色来反映淋巴结组织的硬度信息,具有更高的诊断价值。

超声弹性成像(ultrasound elastography,UE)是一种新型的超声诊断技术,近年来得到快速发展。其利用动态成像技术对组织硬度进行测量(张芳等,2019),通过分析不同组织硬度差异,实现对病灶组织的无创诊断。目前,可用于内镜下的超声弹性成像检查大都采用应变力弹性成像技术。该技术作用原理是:在受到相同外力作用的情况下,较软组织与较硬组织发生的形变量不同。一般情况下,弹性系数小的组织受到刺激后,位移幅度较大,组织变形程度较大,图像呈绿色;而弹性系数较大的组织受到刺激后,位移幅度较小,图像呈蓝色;而硬度介于两者之间的组织,图像会呈红蓝或红绿色。由于恶性淋巴结比良性淋巴结硬度更大,通过测量病灶内蓝色面积的比例,可以评估该病灶硬度,进而鉴别良恶性病变情况(Sun 等,2017)。因此,基于超声弹性图像对纵膈淋巴结进行精准定位和分割成为肺癌诊疗的重要步骤之一。

目前在支气管超声弹性图像研究中,通常需要专业医生手动分割淋巴结,该过程不仅耗时费力,且由于医生个体间差异,对同一幅图像的分析和评估容易产生主观偏见或遗漏重要特征,从而造成一定的分割误差。因此,研究超声弹性图像中淋巴结自动分割的方法具有重要意义。

随着计算机视觉技术的不断发展,语义分割在医学图像领域的应用变得越来越重要。将人工智能技术与医学图像相结合,实现智能辅助诊断已经成为一种不可避免的趋势,并且在医学领域中已经涌现出许多典型的应用案例。在图像分割领域的研究中,全卷积神经网络(fully convolutional networks,FCN)(Shelhamer 等,2017)是最为经典的分割模型,该模型针对卷积神经网络(convolutional neural network,CNN)在图像精细分割中存在的局限性,用卷积层替换CNN 中的全连接层,以此获取图像中各像素的分类结果,从而实现目标分割。U-Net 网络(Ronneberger 等,2015)采用编码器—解码器的对称U 型结构进行图像分割。其每一层中所引入的跳跃连接能够在解码器中结合编码器输出的中间特征,可以很好地适应小样本数据集,以进行较快、有效的分割,因此广泛应用于医学图像分割领域。Attention U-Net(Oktay 等,2018)在U-Net 的跳跃连接部分添加了注意力门(attention gate,AG)机制,重新调整了编码器的输出特征,将注意力权重倾向于目标器官区域,提高了图像分割精度。

Dense-UNet(Cai 等,2020)优化了U-Net 的编码器结构,使用密集卷积网络实现特征提取,完成了多光子活体细胞图像的分割任务。基于通道注意力与空间注意力机制改进的用于肝纤维化区域的自动化分割 U-Net(liver fibrosis region segmentation network based on spatial and channel attention mechanisms,LFSCA-UNet)(陈弘扬 等,2021)将高效通道注意力(efficient channel attention,ECA)(Wang 等,2020)引入到跳跃连接部分,优化解码器模块的输入,实现了肝纤维化区域的分割。IterNet(Li 等,2020)将U-Net结构进行串联,通过分析不同大小U-Net 串联结构,实现视网膜图像中的眼底血管分割。

最近,研究者将多尺度感知和Transformer 引入到U-Net 中以获得图像特征信息,如Chen 等人(2021)提出的Trans-UNet 实现了腹部多器官和心脏分割;Polat(2022)使用修改后的DeeplabV3+对肺部电子计算机断层扫描(computed tomography,CT)图像进行自动分割,效果显著;Lin 等人(2023)思考了卷积神经网络、Transformer 和传统算子之间的关系,提出了CTO(convolution,Transformer,and operator),在多个医学图像分割数据集上都达到了较优的效果;Bi 等人(2023)将Transformer 与可变形卷积充分结合,实现了对甲状腺结节的精准分割。

但是,多数研究都是针对灰度图像,仅采用单通道数据作为网络输入,而基于超声弹性图像的三通道数据分割研究较少。现有研究(刘羽 等,2022)引入多种骨架网络测试U形模型结构在支气管超声弹性图像数据集的分割性能。同时在瓶颈层设计了上下文提取器,在跳跃连接部分使用AG 结构(Oktay等,2018)抑制图像中的不相关信息,提出了注意力上下文编码器网络(attention context encoder network,ACE-Net),并测试模型结构变化对分割效果的影响。遗憾的是,该模型忽略了编码器中间层的通道特征,仅使用了软注意力机制进行特征纠正。同时在模型解码阶段,使用传统的解码器结构,不足以完全将弹性图像的特征进行恢复,对纵膈淋巴结的分割效果有待提升。

一方面,传统的超声图像存在对比度低、噪声大,导致结节边缘模糊、边界变化异常等问题;另一方面,添加了“伪”彩的超声弹性图像虽然可以辅助医生定位结节的大致位置,但对于传统超声图像的问题并没有较好的改善,同时也引入了更大的挑战。具体来说,“伪”彩覆盖了原本纵膈淋巴结的纹理信息,导致淋巴结的实际边界更加难以捕捉,尤其对于小目标纵膈淋巴结的精准分割来说更具挑战性。

因此,本文结合注意力机制和空洞卷积,对支气管超声弹性图像中纵膈淋巴结的分割进行深入研究,主要贡献包括:1)设计密集卷积网络作为模型编码器,充分提取超声弹性图像的各通道特征;2)设计4 种结合通道注意力机制和空洞卷积的解码器结构并测试其分割性能;3)引入选择性内核网络作为跳跃连接,进一步探讨模型结构调整对分割效果的提升;4)使用梯度类别激活映射图(gradient-weighted class activation mapping,Grad-CAM)算法可视化模型不同阶段的类激活热力图,探讨模型作用机制;5)设计的结合注意力机制的多尺度融合增强纵膈淋巴结超声弹性图像分割U-Net(attention-based multiscale fusion enhanced ultrasound elastic images segmentation network for mediastinal lymph node,AMFEUNet)与经典模型对比,取得了更好的分割效果。

1 AMFE-UNet

本文模型主要包含以下部分:密集卷积编码器、多尺度融合增强解码器、多分支注意力跳跃连接,结构如图1 所示。首先将具有三通道的超声弹性图像输入网络并利用所设计的密集卷积编码器对图像进行多阶特征提取;其次使用选择性内核网络作为跳跃连接对编码器产生的中间特征进行再次提取;然后,融合多分支空洞卷积,并结合通道注意力以增强解码器的特征恢复;最后使用输出层将图像转化成二值图。下文详细描述了图中各结构。

图1 AMFE-UNet结构图Fig.1 AMFE-UNet structure diagram

1.1 密集卷积编码器

Dense-UNet(Cai 等,2020)将密集 卷积网 络(dense convolutional network,DenseNet)(Huang 等,2017)作为U-Net 的编码器,该网络相较于原始U-Net的编码器结构具有密集连接的深层卷积运算,其特征提取能力更强,对通道特征更敏感。考虑到超声弹性图像能够定位淋巴节的位置并提供丰富的通道信息,因此本文基于DenseNet 对通道特征的独特优势设计出了AMFE-UNet的编码器结构。

本文引入在ImageNet-1K 数据集(Deng 等,2009)上完成预训练的DenseNet,并将网络结束部分的全连接层剔除。最终该编码器由一个Stem 特征提取器、4 个DenseBlock 和下采样运算组成。具体来说,Stem 包含一个卷积核大小为7 × 7 的卷积层、批归一化层(batch normalization,BN)、整流线性激活函数(rectified linear unit,ReLU)和最大池化层。DenseBlock 用以实现更细致的特征提取,且随网络加深其包含的密集层(dense layer,DL)数量不同,4 个DenseBlock 分别含有6、12、24、16 层,如图1 所示。每一个DL均使用跳连接的方式进行结合,将每个阶段的特征进行通道融合,保证模型对全局特征的权衡。下采样运算由一个卷积核为1 × 1 的卷积层和平均池化层构成,每经过一个下采样运算,特征图的尺寸和通道数都减少一半,以实现特征降维,减少网络参数量。本文输入的超声弹性图像大小为3 × 256 × 256,在经过所设计的DenseNet 编码器后,最终输出特征为1 024 × 8 × 8。

1.2 多尺度融合增强解码器

超声弹性图像的颜色信息虽然存在一定的关联性,但也覆盖了原本纵膈淋巴结的纹理信息。因而本文提出了一种多尺度融合的增强解码器结构,可以从不同尺度和范围对结节的边界和纹理信息进行建模。其主要由空洞卷积(Yu 和Koltun,2015)和高效通道注意力(Wang等,2020)组成。空洞卷积可以在提升感受野的情况下极大地减少参数量,而ECA可以针对每次提取到的特征,从通道维度上对相关通道信息进行增强,对不相关信息进行抑制,使其能够更好地与空洞卷积综合使用。

1.2.1 ECA

高效通道注意力机制可以有效提高神经网络性能并减少计算量和参数量。该注意力机制主要是针对SE(squeeze and excitation)(Hu等,2018)做出的优化,如图2 所示。其中,C、W和H分别表示特征图的通道数、宽和高。这两种结构的主要不同点在于对通道特征的提取方式上,SE 使用线性层对通道特征先进行降维运算,而后进行升维操作,而ECA 使用自适应一维卷积操作直接得到最终的通道权重。由于通道注意力中通道特征存在局部周期性,导致SE降维运算对网络学习通道间的关系存在负面影响,而ECA 的跨通道交互可以降低网络复杂度且不损失性能(Wang等,2020)。

图2 通道注意力模块Fig.2 Channel attention blocks((a)SE structure diagram;(b)ECA structure diagram)

如图2(b)所示,ECA 首先使用全局平均池化层(global average pooling,GAP)和维度转换得到1 ×C大小的特征图,然后计算出一维卷积运算中自适应卷积核的大小k,具体为

式中,C为特征图的通道数,γ和b均为超参数,文中采用其默认设置(Wang 等,2020),|·|odd为取最邻近奇数运算。因此,经过自适应一维卷积操作后的特征可表示为

式中,F为输入特征,Fc为输出特征是卷积核大小为k的自适应一维卷积。然后利用sigmoid激活函数获得通道权重,并将输入特征图与权重相乘得到ECA的输出,具体为

1.2.2 多尺度融合

Yu 和Koltun(2015)提出的空洞卷积(dilated convolution),可以在不增加参数和计算量的前提下提升感受野的大小,帮助解码器解决图像分辨率较低、信息丢失带来的挑战,从而更好地捕捉输入特征的上下文信息。空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)是空洞卷积在深度学习模型中很好的应用案例(Chen 等,2018),主要解决了分割任务中上下文信息的关联问题,更好地利用了图像中全局和局部特征进行分割。ASPP 通过多个并行卷积分支在不同尺度上增加模型感受野大小,每个卷积分支采用不同空洞卷积扩张率以捕捉图像中不同尺度的特征,并将处理后的特征进行融合获得最终输出结果。

本文基于空洞卷积的思想改进了ASPP 以实现特征的多尺度融合。一方面,为了保证不丢失编码器所提取的医学图像特征,本文在解码器中所使用的空洞卷积核大小固定为3 × 3(Polat,2022);另一方面,考虑到模型的解码器在解码阶段特征图尺寸不断增加,为充分发挥空洞卷积的优势,本文针对每个解码器阶段的空洞卷积扩张率进行了调整。为了保证经过空洞卷积运算前后的特征图尺寸不改变,在确定卷积核大小为3 × 3时,其每个解码器的卷积参数设置如表1 所示。其中,i表示空洞卷积的分支序 号,分别为分支1(branch1,Br1)、分 支2(branch2,Br2)和分支3(branch3,Br3),具体结构如图1 中解码器模块所示。分支4(branch4,Br4)为池化分支,包含一个最大池化层和上采样层,用来保留特征图中最显著信息。

表1 不同解码器阶段的卷积参数Table 1 Convolution parameters in different decoder stages

通常情况下,在卷积操作后使用归一化运算能够加快模型训练速度,并提高模型的泛化性能。原始的ASPP 中所使用的批归一化(BN)运算在同一个批次上考虑了数据方差和均值等信息,对批次的变化较敏感。而层归一化(layer normalization,LN)对单个数据的所有通道做归一化,其优势在于批次变化对模型的训练几乎没有影响。因此,本文在解码器中利用LN 替换BN,并使用ReLU 作为激活函数。同时,将空洞卷积与ECA 结合,通过不同的拓扑结构,设置了4 个不同的解码器结构,如图3所示。

图3 解码器结构设计图Fig.3 Decoder structure design diagram

根据图1、表1 和图3,以Decoder-A 解码器结构为例说明如下:其在图1 的Decoder1 中,输入特征图为Fx1,经过4 个分支操作,前3 个分支是卷积核为3 × 3 的空洞卷积运算,空洞卷积扩张率参照表1 可知分别为3、6、9,并保留填充运算保证卷积前后的特征图尺寸不变。Br4 分支为最大池化操作,用于保留最显著的特征。将4 个分支输出的特征按位相加进行融合操作,并输入ECA中,其计算为

式中,i指的是解码器结构中的分支序号。Fx1为解码器输入特征,Fd1为解码器输出特征。通过对相同的特征图进行多尺度处理,可以提取出更加丰富的特征信息。使用按位相加的操作对不同分支上的结果进行综合后添加ECA,可以进一步放大显著特征,扩大显著特征与非显著特征之间的差别,有利于提升模型的学习能力。

1.3 多分支注意力跳跃连接

由Li 等人(2019)所提出的选择性内核网络(selective kernel network,SK-Net)是一种多分支注意力卷积神经网络模型。选择性内核模块根据输入信息的多尺度自适应调整感受野大小,从而提高模型的性能。本文基于DenseNet 所设计的编码器,具有强大的特征提取能力,其每个阶段产生的中间特征有着十分重要的意义。因此,本文引入SK-Net 作为跳跃连接优化中间特征传递,使编码器和解码器的特征以更好的方式进行结合,具体结构如图4所示。

图4 跳跃连接网络结构图Fig.4 Skip connection network structure diagram

SK-Net 主要流程包含3 个阶段。第1 阶段利用3 个不同卷积操作对传入的特征进行处理,得到每个支路的初步特征Sj,具体为

式中,x表示编码器输出的中间特征,也是选择性内核网络的输入。j是支路序号,Convj(·)表示在j支路上的卷积运算,每个支路上卷积核的大小依次为3 × 3、5 × 5、7 × 7。

第2 阶段将Sj进行按元素相加,利用全局平均池化层、线性层和应用在通道维度上的softmax 函数提取每个支路上的通道权重Wj,具体为

式中,Sum(·)add表示对特征图进行逐元素相加,该操作前后特征维度不变。GAP(·)表示全局平均池化层。FC′j(·)表示用共同线性层对上一步提取的权重维度进行压缩,再使用j支路上的线性层对权重维度进行恢复。Wj表示j支路上得到的通道权重。

第3阶段将每个支路上提取的通道权重Wj和该支路上得到的初步特征Sj进行元素相乘,得到每个支路上经过通道注意力后的特征图Tj,具体为

将各个支路上的特征图Tj进行逐元素相加,得到最终特征,即

综上,密集卷积编码器的中间输出x,包含了丰富的图像特征,其向下传入到下一层编码器中,同时又经过多分支注意力卷积神经网络对特征进一步提取,将提取后的结果V与解码器的输出进行通道拼接,有助于保留更多的细节和局部信息,减少x在深层网络中的信息丢失,从而有助于更准确地图像分割。

2 实 验

2.1 数据预处理

在南京市第一医院选取了行超声内镜引导下的经支气管针吸活检术(endobronchial ultrasoundguided transbronchial needle aspiration,EBUSTBNA)检查的患者206例,包括男性患者141例和女性患者65 例。共收集到263 幅淋巴结超声弹性图像,并由经验丰富的放射科医生进行手工勾画。这些图像中包含了102幅良性样本和161幅恶性样本。实验中所使用的超声弹性图像的尺寸统一调整为256 × 256 像素,将数据平均分成6 份,选择其中5 份共219 幅图像用做训练,而另外一份共44 幅图像用做测试。

本文通过六折交叉验证的方法进行多次实验,以充分评估模型的性能。为了增加模型的鲁棒性,本文采用在线数据增强方法,在模型训练迭代时,对读取到的数据以0.5 的概率进行垂直翻转并进行随机角度旋转(-30°或30°)。

2.2 实验参数设置

本文所设计的模型基于Python 3.7 和Pytorch 1.12 实现。图像处理工作站搭载一个Intel i9-13900K CPU 和两张具有24 GB 显存的NVIDIA RTX 4090 GPU。模型训练过程中的初始参数由Pytorch默认初始化方式得到,并采用Adam 优化器对网络参数进行更新。具体地,初始学习率设为0.000 1,权重衰减系数为0.1,学习率每90轮迭代衰减一次,模型迭代训练次数共190次。

使用Dice(Milletari 等,2016)作为损失函数,具体为

式中,It为超声弹性图像分割的真实掩膜,Ip为模型预测的掩膜。

2.3 评价指标

为全面展示模型的分割效果,本文使用Dice 系数、交并比、灵敏度、精确度、特异度和豪斯多夫距离指标以多角度评价AMFE-UNet。其中Dice 系数(Dice coefficient)是一种用于度量两个样本集合相似度的指标,在评价图像分割性能时,Dice系数可表示为

式中,TP(true positives)、FP(false positives)、TN(true negatives)、FN(false negatives)依次表示真阳性、假阳性、真阴性、假阴性的像素点集合。由于像素点分类过程中不计算背景区域的真阳性,因此Dice系数适合于评估分割目标大小不一的任务。

95%豪斯多夫距离(Hausdorff distance 95 percentile,HD95)是两个点集间距离的一种定义形式,具体为

式中,dtp表示从It点集到Ip点集中的最远距离的95%分位数,dpt表示从Ip点集到It点集中的最远距离的95%分位数。该指标对异常值有更强的鲁棒性,更加适用于生物医学图像的分割任务。

以上指标中,除HD95 外,其余指标的取值范围都是[0,1],且越接近1,模型分割效果越好。HD95没有固定取值范围,但其值越小,分割效果越好。

2.4 实验结果

2.4.1 解码器消融实验

以DenseNet 作为编码器,结合图3 所示的4 种不同解码器结构,并使用跳跃连接得到4 个模型,分别命名为DU+A、DU+B、DU+C 和DU+D。其中,DU代表Dense-UNet。为测试这4 种解码器结构的性能,进行了如下消融实验,结果如表2所示。

表2 不同解码器的消融实验Table 2 Ablation experiments with different decoders

从表2可以看出,所设计的4种解码器对模型均有一定的提升作用,但侧重点不同。具体来说,使用Decoder-A 作为解码器结构的模型在Dice、交并比和灵敏度上均有最优的结果且对于其余指标也有一定程度的提升效果。当使用Decoder-C作为解码器时,模型在精确度、特异度和HD95 上均达到了最优,分别为86.639%、97.625%和8.234 7。由于HD95 对分割边界的关注度更高,因而该指标的提升表明使用Decoder-C作为解码器时,模型对感兴趣区域边界的感知能力较其他3 种结构有一定提升。总的来说,4 种模型在Dice、交并比、精确度、特异度和HD95 上均有提升,每个指标平均提升0.2%~1.4%,在HD95 距离上平均缩减近0.8。证明使用空洞卷积结合通道注意力机制设计的4 种解码器结构,相对于基础模型都有着很强的竞争力。

2.4.2 跳跃连接消融实验

为了进一步探讨选择性内核网络作为模型跳跃连接对分割效果的提升,结合表2 得到的解码器结构消融实验结果,选择传统卷积结构、各分支结果进行数值相加后添加ECA 的结构(Decoder-A)、各分支结果进行通道拼接后添加ECA 的结构(Decoder-B)和各分支添加ECA 后进行通道拼接的结构(Decoder-C),以此作为消融设置中各模型解码器,形成的模型分别命名为DU+S、DUS+A、DUS+B 和DUS+C,实验结果如表3所示。

表3 跳跃连接的消融实验Table 3 Ablation experiments with skip connections

从表3 可以看出,使用SK-Net 作为Dense-UNet的跳跃连接(DU+S)在Dice、交并比、精确度和特异度上平均提升0.901%,其中提升效果最为明显的是精确度,提升1.413%。证明SK-Net 作为模型的跳跃连接能够实现对中间特征的二次提取和增强,为模型解码器部分对特征的恢复提供了更多信息,增强了模型的分割效果。

同时,结合表2可以看出,使用SK-Net作为DU+A、DU+B和DU+C模型的跳跃连接,进一步增强了模型的分割效果。具体来说,DUS+A 模型相较于DU+A模型在5个指标上都有着一定程度上的提升,其中精确度提升效果最明显,达到86.729%,其在HD95上也将距离从8.561 9缩短至8.182 3。DUS+B模型相较于DU+B 模型在Dice(86.589% vs 86.258%)、交并比(77.411% vs77.030%)、灵敏度(89.934%vs89.489%)和HD95(8.1170 vs 8.7640)上有着明显提升。

理论上,使用多分支注意力卷积神经网络作为模型的跳跃连接对模型中间特征进行深入挖掘,使用多尺度融合增强结构作为模型解码器对不同阶段的特征进行恢复,在模型的整体结构上有着相辅相成的效果。对比表3 不同模型的结果,选择DUS+A模型和DUS+B 模型作为本文设计的最终模型,即将各分支结果进行数值相加后添加ECA 作为解码器(图3 Decoder-A)和将各分支结果进行通道拼接后添加ECA 作为解码器(图3 Decoder-B),分别命名为AMFE-UNet A和AMFE-UNet B。

2.4.3 模型对比实验

为进一步验证本文设计的AMFE-UNet 在超声弹性图像数据集上的有效性,从定量和定性的角度与U-Net(Ronneberger 等,2015)、Att-UNet(Oktay 等,2018)、Seg-Net(Badrinarayanan 等,2017)、Deep-LabV3+(Polat,2022)、Trans-UNet(Chen 等,2021)、U-Net++(Zhou 等,2018)、BPAT-UNet(Bi 等,2023)、CTO(Lin 等,2023)和ACE-Net(刘羽 等,2022)进行对比实验,结果如表4和图5所示。

表4 模型对比实验Table 4 Comparison experiments with different models

图5 不同模型分割结果图Fig.5 Segmentation results of different models((a)original images;(b)ground truth;(c)U-Net;(d)Seg-Net;(e)Att-UNet;(f)UNet++;(g)Trans-UNet;(h)DeeplabV3+;(i)BPAT-UNet;(j)CTO;(k)ACE-Net;(l)AMFE-UNet A;(m)AMFE-UNet B)

从表4 可以发现,本文设计的AMFE-UNet A 在Dice、精确度和特异度上得分最高,AMFE-UNet B 在交并比、灵敏度和HD95 上效果最好。具体来说,AMFE-UNet A 在Dice 指标上分别比U-Net、Seg-Net、Att-Unet、U-Net++、Trans-UNet、DeepLabV3+、BPATUNet、CTO 和ACE-Net高1.989%、1.173%、0.925%、1.122%、2.634%、0.974%、0.693%、0.509% 和0.541%。在精确度上比ACE-Net 提高1.502%(86.729% vs85.227%)。在特异度上相较于9 个对比模型平均提高了0.531%。AMFE-UNet B 更加注重分割结果中真阳性样本的比例。在交并比和灵敏度上相较于ACE-Net 分别提升0.858%(77.411% vs 76.553%)和0.506%(89.934% vs89.428%),相较于其余对比模型,平均提升分别为1.683% 和1.124%。在HD95 上AMFE-UNet B 将距离从U-Net的10.386 缩短至8.117,与其余模型对比平均缩短的距离为1.359,模型的分割效果提升明显。由于本文对U-Net 的各部分都进行了优化,导致AMFEUNet 和Att-UNet、BPAT-UNet、CTO 等模型一样,相较于基础模型有着更好的性能和更大的参数量。但值得肯定的是,AMFE-UNet 在计算量仅略高于U-Net的情况下,其分割效果仍优于其他分割模型。

从图5 可以看出,本文设计的两种模型对不同尺寸的纵膈淋巴结均有较好的分割效果。当分割目标尺寸较小时(图5 样本1),U-Net、Seg-Net、Att-UNet、BPAT-UNet、CTO 和ACE-Net 的分割结果相较于真实情况偏小,只有UNet++和AMFE-UNet可以较为准确地分割出目标结果。当分割目标尺寸适中且边界结构较为简单时(图5 样本2),Trans-UNet、U-Net、Att-UNet和UNet++的结果存在明显误分割情况,其中Trans-UNet 的分割效果不理想,从表4 中也可以得到相同的结论,而CTO 在结节右下角也有明显的漏分割情况。当分割目标尺寸适中且边界结构相对复杂时(图5 样本3),Att-UNet、UNet++和Trans-UNet 的结果存在明显的漏分割情况,对目标分割区域右下突出区域没有准确地分割,仅有AMFE-UNet模型在整体效果上得到较准确的分割结果。当分割目标尺寸较大时(图5 样本4),Seg-Net和Trans-UNet在目标分割区域的右下凹陷处也有着明显的漏分割情况,整体分割结果偏小,U-Net、DeepLabV3+和BPAT-UNet的分割结果在右下区域存在着明显的误分割情况,只有CTO、ACE-Net和AMFE-UNet在整体分割结果上较为准确。

将本文所设计的AMFE-UNet 和ACE-Net 进行全方位比较,可以发现本文所提出的结合注意力机制的多尺度融合增强分割模型AMFE-UNet 效果明显优于ACE-Net。具体来说,在解码器结构和跳跃连接结构的消融实验中,仅使用各分支结果进行数值相加后添加ECA 作为解码器的模型(DU+A 模型)和仅使用分支结果进行通道拼接后添加ECA 作为解码器的模型(DU+B 模型)在全部6 个评价指标上均优于ACE-Net(如表2)。仅使用SK-Net 作为跳跃连接的模型(DU+S 模型)只在灵敏度上略低于ACENet,其余5 个评价指标也均优于ACE-Net,如表3 所示。在最终AMFE-UNet 的两个子型中,也只有AMFE-UNet A 在灵敏度上低于ACE-Net,其余指标也均优于ACE-Net,如表4所示。

从图5的分割结果中可以明显看出,ACE-Net的分割结果相较于真实结果偏小,而AMFE-UNet 的分割结果可以较好地匹配真实结果。在样本1 中,ACE-Net 的分割结果仅为真实结果的一部分,存在明显漏分割情况,而AMFE-UNet 的分割结果和真实结果具有更优的形态相似度。在样本3 中,AMFEUNet 分割结果的右下部分有明显的突出情况,与真实结果形态契合,而ACE-Net 的分割结果在这一部分表现不明显,分割结果略小于真实情况。结合以上对比分析,充分表明AMFE-UNet 对纵膈淋巴结的超声弹性图像分割具有较好的效果,凸显出其在医生利用超声弹性图像对肺癌诊疗具有的潜在临床应用价值。

2.4.4 模型可视化分析

为了进一步探索本文提出的AMFE-UNet 模型作用原理,使用Grad-CAM(Selvaraju 等,2017)对模型的解码阶段进行分别展示。选择U-Net、Att-UNet、Seg-Net、Trans-UNet、BPAT-UNet、CTO、ACENet、AMFE-UNet A 和AMFE-UNet B 共9 种模型,在解码器的Decoder2、Decoder3 和Decoder4(如图1)3 个阶段进行展示。同时,为了便于比较分割结果,选择图5中样本2的分割过程进行可视化处理,结果如图6。

图6 不同模型的类激活热力图Fig.6 Class activation maps for different models((a)U-Net;(b)Seg-Net;(c)Att-UNet;(d)Trans-UNet;(e)BPAT-UNet;(f)CTO;(g)ACE-Net;(h)AMFE-UNet A;(i)AMFE-UNet B)

从图6 的整体分析可知,模型底层阶段的特征提取能力决定了模型高层阶段的特征恢复情况。具体来看,9 个模型在Decoder2 阶段,都可以大致定位到真实分割区域,在Decoder3阶段,进一步以上一阶段得到的感兴趣区域继续向外扩张。在Decoder4阶段,本文提出的两个模型AMFE-UNet A 和AMFEUNet B 将感兴趣区域从内部转向边界,在整体分割结果上达到了较好效果。而其余5 个模型依旧进一步地向外扩张感兴趣区域,导致由模型底层阶段定位的目标区域所决定的模型高层阶段的分割结果不够精确。

其次,通过横向对比可以发现本文模型在底层阶段对目标分割区域的定位更加准确。在Decoder2 和Decoder3 阶段,AMFE-UNet 模型感兴趣区域中红色面积比Seg-Net、Att-UNet、Trans-UNet、CTO 和ACE-Net 感兴趣区域红色面积大,同时红色面积的分布更加均匀,与目标分割区域契合度很高。

最后,也可以从图中分析出传统模型分割效果不佳的原因,即模型底层阶段对特征的定位能力或模型高层阶段对特征细节的纠正能力不足。具体来说,ACE-Net 在模型瓶颈层借助上下文提取器进一步提取高级语义信息,导致解码器阶段对高级语义信息的恢复存在一定难度,在Grad-CAM 图中表现的形式就是在Decoder2 和Decoder3 阶段中感兴趣区域较小。而U-Net 模型在Decoder2 阶段对目标分割区域定位能力较准,但在Decoder3 和Decoder4 阶段,其感兴趣区域几乎没有变化,表明模型高层阶段对特征细节的纠正效果不佳。而本文设计的AMFE-UNet 在模型底层和高层阶段都表现出较好效果,对感兴趣区域的整体分割结果最好。

同时,本文针对模型出现分割失误的案例进行了可视化分析,其类激活热力图如图7。从图中可以明显发现,当结节表面颜色极为复杂时,结节本身纹理信息不仅被颜色信息覆盖,同时还受到不同颜色区域交叉的干扰,模型出现了误分割的情况。具体来说,在样本5(图7 第1 行)中,AMFE-UNet A 在模型底层特征恢复时,定位区域出现偏差,导致最后模型存在误分割情况。在样本6(图7 第2 行)中,AMFE-UNet 的两个子型在模型底层都可以较为准确地定位到结节大致位置,但在模型高层却对结节边界信息把握得不够准确,出现误分割的情况。但是值得肯定的是,针对其他的超声弹性图像,本文提出的AMFE-UNet 都有着较好的分割效果,优于主流的分割模型。

图7 失败案列的类激活热力图Fig.7 Class activation maps for failed cases((a)original images;(b)AMFE-UNet A(Decoder2);(c)AMFE-UNet A(Decoder4);(d)AMFE-UNet B(Decoder2);(e)AMFE-UNet B(Decoder4))

2.4.5 两种子模型对比

为更加充分探究本文提出的两种子模型的优势,对Dense-UNet、AMFE-UNet A 和AMFE-UNet B共3 种模型在训练集和测试集上的训练过程进行展示,如图8所示。

图8 3种模型的损失曲线图Fig.8 Loss curves for three models((a)train loss curves;(b)test loss curves)

由于本文模型解码器和跳跃连接的设计较为复杂,因此AMFE-UNet 模型在训练过程中有着一定难度。在曲线图上表现为,训练前期Dense-UNet 的收敛速度快于AMFE-UNet,其训练损失曲线位于AMFE-UNet 的训练损失曲线下方。在约90 个批次后,AMFE-UNet B 的训练损失曲线到Dense-UNet 的训练损失曲线的下方,表明模型的学习能力进一步提升。在约170 个批次后,AMFE-UNet A 的训练损失曲线也达到了Dense-UNet 的训练损失曲线下方,但没有达到AMFE-UNet B 的效果。理论上,由于解码器中各空洞卷积分支的结合方式不同,因此使用Decoder-B 作为解码器时,模型参数量大于使用Decoder-A 作为解码器的模型,对数据有着更好的学习潜力。

在测试阶段,可以看出本文设计的AMFE-UNet具有最小的收敛值,并且AMFE-UNet B 的模型测试的收敛过程更稳定。当AMFE-UNet 的训练损失曲线还在Dense-UNet 上方时,AMFE-UNet 的测试损失曲线已经在Dense-UNet 下方,这意味着在相同训练条件下,AMFE-UNet 对目标分割的能力已经优于Dense-UNet。在第80 个批次之后,AMFE-UNet B 的测试损失曲线位于AMFE-UNet A 的测试损失曲线下方,并且曲线更加平滑,表明AMFE-UNet B 有更好的泛化能力和更强的稳定性。

通过上述分析并结合对比实验结果可得出,AMFE-UNet B 比AMFE-UNet A 更加适合临床应用。AMFE-UNet B 和AMFE-UNet A 在定量实验结果中,仅灵敏度(89.934%vs88.812%)和精确度(85.675%vs86.729%)存在较大差异,其余指标相差不大。在医学图像分割任务中,高灵敏度比高精确度的模型更加适合临床应用,因为该模型可以更好地捕捉到病灶,以减少漏诊的风险。因此AMFEUNet B更适用于超声弹性图像中纵膈淋巴结的分割任务,对于医生利用超声弹性图像对肺癌诊疗具有潜在的临床应用价值。

3 结论

超声弹性图像具有丰富的通道信息,能够对感兴趣区域的分割起到一定指导作用,但其对纹理信息的遮盖也导致了这项任务难以执行。同时,由于纵膈淋巴结组别存在不同,其组间也存在着一定差异,进一步导致分割任务难度增加。因此,本文基于U-Net 框架,设计了基于密集卷积的DenseNet 编码器,同时结合通道注意力机制ECA 与空洞卷积设计了4 种不同的解码器。使用多分支注意力网络作为模型的跳跃连接结构,对编码器的中间特征和解码器的输出特征进行充分融合,提出了结合注意力机制的多尺度融合增强分割网络AMFEUNet,并且重点讨论了其两种子型。为了验证本文模型的有效性,进行了充分的实验,得出以下结论:

1)AMFE-UNet 使用多尺度融合机制和注意力增强机制,增加了模型的稳定性。对比实验表明,相较于当前主流的分割模型,AMFE-UNet 展现出明显的竞争优势。

2)结合了通道注意力机制优化的解码器和跳跃连接所设计的模型,在模型底层阶段更加注重分割区域的定位准确性,增加了模型分割的查准能力。在模型浅层阶段更加注重分割区域边缘的识别,增加了模型的分割查全能力。

3)将空洞卷积分支和池化分支的结果进行通道拼接后添加ECA 作为模型的解码器,其稳定性和泛化能力更强,对纵膈淋巴结分割具有更高的灵敏度,确保了分割任务中有着较低的漏检率,对于辅助医生进行癌症诊疗具有重要意义。

本文针对U-Net 框架的各部分进行优化并给出了对应的消融实验结果,为后续研究U-Net 结构变体对分割效果的提升提供思路。由于评价指标间存在一定的负相关性,所设计的AMFE-UNet B 未能在所有评价指标上均达到最优值。同时,由于对模型各个优化模块的融合兼容不够完美,导致模型的参数量和计算量略微增加。因此后续研究将集中在数据搜集、半监督分割任务开展以及模型最优结构分析上,以实现更优秀的分割效果,辅助医生利用超声弹性图像对肺癌进行相关诊疗。

猜你喜欢
解码器编码器分支
科学解码器(一)
科学解码器(二)
科学解码器(三)
线圣AudioQuest 发布第三代Dragonfly Cobalt蓝蜻蜓解码器
巧分支与枝
基于FPGA的同步机轴角编码器
一类拟齐次多项式中心的极限环分支
基于PRBS检测的8B/IOB编码器设计
JESD204B接口协议中的8B10B编码器设计
多总线式光电编码器的设计与应用