一种改进的双通道多尺度医学图像分割网络模型

2022-04-21 10:17王燕贞
漳州职业技术学院学报 2022年1期
关键词:解码器精确度双通道

王燕贞

(漳州职业技术学院 电子信息学院,福建 漳州 363000)

卷积神经网络在计算机视觉任务中一直扮演着重要角色。由于计算能力爆发式的提升,使得很多复杂的网络模型,如AlexNet[1]、VGG-Net[2]得以运用于实际场景。UNet[3]由于所需训练样本量少而备受学者们青睐,将其作为卷积神经网络应用于医学图像处理的一种主流方法。近年来,基于UNet的改进算法层出不穷,UNet++[4]采用密集卷积块连接代替UNet中编码器和解码器之间的跳跃连接,从而解决了跳跃连接中语义差距而导致的分割性能下降问题。但UNet++仍缺乏全尺度连接,这使得模型在学习感兴趣区域的位置和边界过程中略显不足。UNet3+[5]的全尺度设计,每层解码器均包含低层编码器特征和高层解码器特征,以获取细粒度细节和粗粒度语义。文献[6]针对气胸分割,以UNet为基础架构进行改进,并应用于实际医用场景。该模型采用EfficientNet[7]中的编码模块MBConvBlock,解码器则是由3*3卷积块和注意力机制模块构成,同时提出一种改进的混合损失函数,以常用的Dice损失函数结合Focal[8]损失函数,提升微小气胸的分割精度。医学图像包含多种脏器,且病灶类型多样,这些感兴趣区域通常具有不同规模和形态,因此多尺度的应用增强了模型的健壮性。文献[9]深入研究医学图像中病变组织大小变化,提出多尺度思想,并行使用大小不同的卷积滤波器,改变编码器与解码器之间的连接方式,用改进残差连接代替跳跃连接。实验证明,多尺度的引入在多种成像设备(皮肤镜、内窥镜、荧光显微镜、电子显微镜和核磁共振)上产生的数据集的分割精度与经典UNet相比,有了一定幅度的提高,同时也减少了参数数量。胡屹杉等[10]运用多尺度思想对超声甲状腺图像进行分割,采用动态多尺度特征提取获取全局信息,解码器采用混合上采样,对高维特征和低维特征分别采用最大反池化上采样和空洞反卷积,并引入特征融合注意力模块,专注于关键信息的获取,提升模型对感兴趣区域的分割能力。

上述UNet改进的算法中,在不同程度上引入了全尺度或多尺度思想,对不同规模和类型的病灶组织的分割精度有了一定的提高,但对于复杂模糊边界的处理还略显欠缺。为了提高不同形态规模病灶的分割精度,提出一种改进的双通道多尺度分割模型,受文献[11-12]的思想启发,在MultiResUNet[9]的基础上,将编码器的多尺度模块分解为双通道,每个通道包含大小不同的卷积块,将每个通道的卷积块连接后再进行相加操作,最后加入挤压激励块增加模型对相关特征的敏感度,降低无关特征的干扰。

1 双通道多尺度卷积网络模型(DMSEUNet)

医学图像具有脏器类别多、病变组织规模形态各异、成像技术多样化等特点,给分割模型的泛化能力提出了挑战。受文献[11-12]启发,本研究提出一种针对不同规模形态病变组织的分割模型。该模型采用双通道多尺度获取特征值,并使用残差连接尽可能保留低维特征,避免由于跳过连接造成的语义差异,同时在编码器层中加入挤压激励块,用于抑制无关特征的影响。

1.1 多尺度卷积滤波器

在UNet架构中,在每个池化层和转置卷积层之后,使用两个3*3卷积层的序列。为了提高模型的鲁棒性,将UNet架构中的3*3卷积块进行多尺度扩展,使用大小分别为3*3、5*5和7*7的卷积块并行连接,形成多尺度卷积滤波器代替UNet中的3*3卷积块,以提高模型对不同形态大小的病灶组织的分割鲁棒性,具体如图1所示。

图1 多尺度卷积滤波器

在实际的训练过程中,5*5和7*7的卷积计算开销昂贵,为了降低其对内存的需求,本研究借鉴文献[13]的方法,将5*5和7*7的卷积块分解成多个轻量级的3*3卷积块。如图2所示,多尺度卷积滤波器中的5*5卷积块和7*7卷积块分别被分解为2个3*3和3个3*3的卷积块,并加入了Batch归一化处理。

图2 多尺度卷积滤波器分解图

1.2 双通道路径

使用多尺度卷积滤波器获取特征映射虽然在一定程度上优化了UNet网络结构的输出,但对于模糊边界以及背景、噪声等干扰的处理表现仍有不足。从上述多尺度卷积滤波器的结构可以看出,不同尺度特征的引入对于分割不同大小的病灶组织具有优势,由此假设,加大不同尺度特征的规模,能够提高边界分割能力。基于上述假设,修改多尺度卷积滤波器,在编码器层引入双通道路径,将原来的多尺度卷积滤波器扩展为双通道,将双通道的相加结果作为输出,如图3所示。

图3 双通道多尺度卷积滤波器

UNet结构中的跳过连接可以将池化过程中丢失的空间信息从编码器传递到解码器。但由于合并的两组特征一组来自编码器的低层,另外一组来自解码器的高层,这两组不兼容的特征融合极有可能产生语义差异,使预测结果受到影响。为了减轻这种编码器和解码器之间的差异,引入残差思想[15]将UNet跳过连接中的卷积操作进行连接合并。

1.3 挤压激励块

在神经网络中,由卷积产生的特征映射只关注局部信息,这就意味着局部接受域以外的其他视野将被忽略。挤压激励块[14]通过建模通道之间的相互依赖关系,来校准通道级别的特征响应。通过全局空间信息来学习信道权值,从而提高有效特征的灵敏度,抑制无关特征。在本研究中,采用全局平均池对特征映射进行压缩操作来生成全局表示。如图4所示,挤压激励块包含全局池化、两个全连接层、ReLu激活函数和Sigmoid激活函数。其中c代表通道数,r代表比率,通过调整输出通道数量构成一个瓶颈结构,以实现对有效特征和无效特征的取舍控制。

图4 挤压激励块结构图

1.4 DMSEUNet结构图

结合上述内容,本研究提出一种基于UNet的改进网络模型DMSEUNet,该模型采用多尺度接受域,获取不同形态规模的病灶组织,并行双通道提升模糊复杂边界的分割效果,在每层双通道多尺度滤波器(DMBlock)之间,添加挤压激励块(Squeeze&Excite),抑制无关特征,专注于相关特征的提取。编码器层与解码器层之间由简单的跳过连接转换为残差连接(Res Path),使学习过程更加容易,并避免了梯度爆炸,如图5。

图5 DMSEUNet结构图

2 实验结果与分析

2.1 实验设置

由于医学成像设备昂贵、图像采集管道多样化,且需要医学专家的人工注释,再加上病人隐私等问题,使得医学图像数据集的生成相比于其他计算机视觉数据集更具难度。因此,具有标准分割的公共数据集数量较少,且单个数据集包含样本数量也有限。为了测试模型的泛化能力,本研究使用公开的Kvasir-SEG、CVC-ClinicDB和ISIC2018 3个数据集进行训练和测试。由于数据集中样本数量有限,故在实验过程中,对训练集采用水平翻转、垂直翻转等数据增强方法,扩大样本数量。数据集Kvasir-SEG和CVC-ClinicDB中的图像为肠道内窥镜图,ISIC2018数据集为皮肤镜图像,Kvasir-SEG数据集中图像大小为192*256,CVC-ClinicDB和ISIC2018数据集中图像大小均不同,为达到实验过程统一标准,将各个数据集中的图像均转换为256*256。实验过程中,从各数据集中随机抽取80%的数据样本,进行数据增强,用于训练,10%作为验证集,10%作为测试集。使用二进制交叉熵作为损失函数,选择Nadam优化器进行优化,batchsize设置为16,学习率设置为1e-5,所有的训练模型都训练了300个epho,在训练过程中使用了EarlyStop。本研究采用召回率(Recall)、精确度(Precision)和AUC值作为评价指标。召回率和精确度的计算公式如式(1~2):

其中,TP代表正类被预测为正类的像素个数,FN代表正类被预测为负类的像素个数,TP+FN则代表标准分割中所有正类的像素个数。FP代表负类被预测为正类的像素个数,TP+FP代表预测结果中所有正类的像素个数。除了精确度和召回率以外,ROC曲线图是评价模型优劣的另一种评价指标。ROC曲线下面积(AUC值)越大,代表模型分割效果越好,反之亦然。

2.2 实验结果和分析

由上述实验结果可知,图6~8和表1~3为UNet[3]、ResUNet++[12]、MultiResUNet[9]、DCUNet[11]和DMSEUNet这几种模型在Kvasir-SEG、CVC-ClinicDB、ISIC2018数据集上的分割效果和分割精度对比情况。由图6和表1可知,对比五种模型,UNet在Kvasir-SEG数据集上的分割精确度最低,ResUNet++和MultiResUNet两种模型的精确度接近,在93%左右,比UNet高了近3个百分点,DCUNet则比Multi-ResUNet和ResUNet++在精确度上表现更佳,而本文设计的模型DMSEUNet在精确度上与UNet相比,提高了6个百分点,与其他3种UNet改进模型相比,精确度提升了1.8~3.3个百分点。在召回率方面,ResUNet++略显不足,其他四种模型的召回率较为接近。图9、图10和图11分别使用AUC指标对Kvasir-SEG、CVC-ClinicDB和ISIC2018测试集进行分割评价。从图9-11可以看出,四种改进UNet模型中,DCUNet表现最差,AUC值为93.58%,ResUNet++和MultiResUNet的AUC值较接近,在94.5%左右,而本文设计的模型DMSEUNet表现最佳,达到了95.94%,其他3种UNet改进模型相比,AUC值提升了1.3~2.3个百分点。

图6 Kvasir-SEG数据集分割效果对比图

图7 CVC-ClinicDB数据集分割效果对比图

图8 ISIC2018数据集分割效果对比图

图9 Kvasir-SEG数据集上4种UNet改进算法的ROC对比

图10 CVC-ClinicDB数据集上4种UNet改进算法的ROC对比

表1 Kvasir-SEG数据集分割指标对比

由图7和表2可知,对CVC-ClinicDB数据集的分割,UNet和ResUNet++的精确度较低,MultiResUNet和DCUNet两种模型的精确度较为接近,比UNet和ResUNet++高了3~4个百分点,DMSEUNet在5种模型中,精确度最高,达到了98.38%。随着精确度的提高,DMSEUNet的召回率有所下降。从CVC-ClinicDB数据集的ROC对比图可以看出,4种基于UNet的改进模型中,ResUNet++模型表现最差,AUC值为96.70%;其次是DCUNet和MultiResUNet,分别是98.00%和98.34%。而本文设计的DMSEUNet模型AUC值为98.68%,与对比模型相比,提升了0.3~2个百分点。

表2 CVC-ClinicDB数据集分割指标对比

由图8和表3可知,虽然ResUNet++的召回率在5种模型中是最高的,但是其精确度只有89.82%,结合图11的ROC对比综合判断,ResUNet++在ISIC2018数据集的分割效果较差。MultiResUNet、DCUNet和本文设计的模型DMSEUNet 3种模型对比,DCUNet的召回率最高,而精确度最低;而本文设计的模型DMSEUNet的精确度最高,但在召回率上表现不佳。结合图11评价4种UNet改进模型的整体性能,ResUNet++的AUC值最低,为94.18%,DCUNet、MultiResUNet和DMSEUNet 3种模型的AUC值则较为接近,分别为96.77%、96.95%和97.08%,从AUC值来看,设计的模型略优于其它UNet改进模型。

图11 ISIC2018数据集上4种UNet改进算法的ROC对比

表3 ISIC2018数据集分割指标对比

3 结论

本研究提出一种基于医学图像分割的改进UNet算法。该模型沿用UNet的U型网络结构,将UNet网络结构中编码器和解码器中的卷积块进行改进,使用双通道多尺度卷积块进行替换,这种改进使得模型在不同类型样本间的泛化能力得到提升。同时,在编码器层之间引入挤压激励块,并使用残差路径替换简单的跳过连接,这种结构不但提高了模型对有效特征的关注度,而且让训练更为容易。实验表明,本研究方法与经典的UNet结构相比,在很大程度上提高了精确度,与其它3种改进UNet算法相比,精确度也有了不同程度的提高。虽然在整体性能上优于其他算法,但在精度提高的同时,召回率有所下降。如何进一步提高召回率将是后续研究的方向。

猜你喜欢
解码器精确度双通道
科学解码器(一)
近端胃切除双通道重建及全胃切除术用于胃上部癌根治术的疗效
福建省医保局率先上线省级“双通道”电子处方流转服务
科学解码器(二)
科学解码器(三)
“硬核”定位系统入驻兖矿集团,精确度以厘米计算
线圣AudioQuest 发布第三代Dragonfly Cobalt蓝蜻蜓解码器
电力信息网络双通道故障自动探测策略探究
放缩法在递推数列中的再探究
智典DDR2 800 2GB/4GB