基于GAN 的肺部CT 影像超分辨率重建研究

2024-04-13 06:54姜茜吕玉超徐英豪朱习军
电子设计工程 2024年7期
关键词:鉴别器纹理分辨率

姜茜,吕玉超,徐英豪,朱习军

(青岛科技大学信息科学技术学院,山东青岛 266061)

肺癌是对人类生命健康威胁最大的一种恶性肿瘤,研究表明,早期肺癌的诊断和治疗可以让患者5 年的生存率提高到55.5%[1],CT 目前是肺癌早期临床筛查的主要影像方法,但其分辨率受制于成像设备、X 射线剂量等条件,会出现复杂、不均匀的噪声,这使图像的原始尺寸及质量无法满足医生在阅片时的诊断需要。因此提高CT 影像的分辨率,使其在放大后依然保持着清晰的纹理细节是目前研究的主要任务。近年来,随着深度学习的发展,基于生成对抗网络(Generative Adversarial Networks,GAN)[2]的重建模型大大改进了传统超分辨率图像重建的效率与质量[3],SRGAN 稳定的网络结构具有较好的重建效果和鲁棒性,因此,其被频繁用于医学图像重建[4-7]。尽管医学图像重建相关研究已经取得了长足的发展,但受制于肺部CT 影像纹理细节、边缘梯度复杂[8]的特点,超分辨率重建工作仍存在瓶颈,出现放大倍数受限[9]、重建后丢失边缘信息和微小焦点[10]等问题。

1 RUAGAN模型研究与设计

针对上述问题,该文提出了RUAGAN 模型对肺癌数据集进行分辨率重建,使重建后的CT 图像在4x 放大因子上依然保持清晰的细节,同时减少边缘信息的丢失,保证图像的真实性,满足医生的观测需求。

1.1 生成器

RRDB 为生成器的基本块,采用了两层残差结构,主干部分由三个密集残差块(Residual Dense Block,RDB)构成,将主干网络的输出与残差边相叠加,通过密集连接卷积层充分提取局部特征,不仅可以提高特征提取的能力,还能够有效避免模型过深导致的性能退化问题。使用RRDB 作为生成器的基本块,结合了多层残差网络和跳跃链接,这样的结构有利于特征充分提取与特征重用[11],充分挖掘图像中抽象特征与纹理细节的同时增加网络容量。生成器模型结构如图1 所示。

图1 生成器结构

重建医学图像需要充分的高频信息。大部分重建模型存在丢失高频信息的问题,导致重建后的图像纹理细节不清晰,甚至出现斑块。为提高高频特征的提取特征,该文在生成器后半部分加入局部注意力模块,其结构如图2 所示。

图2 局部注意力模块结构

对张量块T使用平均池化进行下采样操作,得到张量块TD,输出张量块TD的通道数与高度为张量块T的二分之一,其值越高,子区域的判别信息就越丰富,对TD使用pixelShuffle 进行上采样得到和T相同尺寸的、平滑的深层特征块T′。这时,用T减去T′得到该局部的高频信息TH:

式中,利用激活函数ReLU 来增强二者之间的动态差异范围,得到的TH中的每一个插值都代表了该部分区域与平均水平的插值。再将高频信息叠加到T中得到Tout,公式如下:

其中,β是超参数,用于平衡注意模块的影响。此时Tout中突出了图像局部的高频信息,达到了区分判别信息注意优先级的目的,有助于生成器对高频信息的提取。

1.2 带有实例归一化的U-Net鉴别器

CT 图像具有噪声纷乱复杂、边缘信息模糊、纹理细节复杂等特点。传统GAN 模型中使用的相对鉴别器[12]忽略了图像的真实性,对该文的医学数据集并不适用。所以在处理CT 图像时使用对像素梯度更敏感、鉴别能力更加强大的U-Net 网络作为鉴别器[13]。鉴别器结构如图3 所示。

图3 鉴别器结构

在U-Net 的编码部分,通过对输入的图片进行卷积和降采样,得到不同尺寸的特征图,在解码过程中进行上采样,上采样后的特征图与解码过程中对应的特征图进行通道上的拼接。因U-Net 网络结构更深,深层卷积侧重全局信息,浅层卷积关注纹理细节,提供了更好的特征提取能力,跳跃连接可兼顾全局信息与纹理细节,使用concat 进行特征拼接有助于还原降采样所带来的信息损失,避免了边缘特征的丢失。U-Net 网络作为鉴别器,输出为每个像素的真实值,向生成器提供详细的逐像素反馈,为肺部图像重建提供更加强大的鉴别能力。

U-Net 网络相比于普通鉴别器网络,结构更加复杂、网络层更深,在训练深度网络时,网络隐藏层参数更新会导致数据分布发生偏移,为了保持数据分布的一致性,在U-Net 中对每个特征图进行实例归一化(Instance Normalization,IN)。IN 可以保持每个图像实例之间的独立,并加速模型收敛、稳定训练,此外,在U-Net 中添加IN 有助于缓解在生成对抗过程中引入的过于尖锐的伪信号。

1.3 组合损失函数

多数基于GAN 的重建模型中,通常以峰值信噪比为导向,使用MSE 作为损失函数,容易丢失高频信息,导致图像过于平滑。为解决上述问题,并在考虑人类视觉感知的前提下提高图像分辨率,针对医学图像的观测需求,文中把对抗损失、SSIM损失与感知损失[14]三者结合在一起,将损失函数定义为:

LGAN为对抗损失,功能是帮助生成器,使生成图像尽可能接近真实图像,从而欺骗判别器。通过计算生成图像与目标图像之间的差值,可提高图像的真实度,提高生成图像的视觉效果。LGAN公式为:

其中,ILR和IHR分别为LR图像和对应的HR图像。G和D分别表示模型的发生器和鉴别器,δ为sigmoid 函数。

SSIM(Structural Similarity Index)为结构相似度指数,从图像组成的角度将结构信息定义为独立于亮度、对比度的、反映场景中物体结构的属性。使用SSIM 损失充分考虑人类的视觉感知,比使用L1 损失得到更多细节。SSIM 损失公式为:

其中,l(ILR,IHR)为亮度相似度,c(ILR,IHR)为对比度相似度,s(ILR,IHR)为结构相似度。

为提取图像的高频信息,在损失函数中加入感知损失,利用卷积层抽象高层特征的能力,从高维度更接近人的思维的层次来感知图像。感知损失提供了清晰的边缘和更具有视觉体验的结果。感知损失公式如下:

其中,Ci、Hi、Wi分别表示第i层特征映射的通道大小、高度和宽度,φi表示训练网络第i层的激活情况。

2 实验

实验环境包括硬件环境和软件环境,硬件设备为一台搭载GPU NVIDIA GeForceRTX 3090 的服务器,软件设备为PyTorch 1.11 CUDA ToolKit 11.2,Python3.7。在实验中batch-size 设为8,生成器中RRDB 的个数设置为23。使用Adam 优化器促使损失函数收敛到最小,以不断更新网络参数,初始学习率设置为2×10-4,衰减率为0.1。

2.1 数据准备

实验中采用美国国家肺癌中心数据集,使用MicoDicom 软件遍历数据集,从中挑选出清晰度相对高、纹理细节复杂的3 000 张图像,并将其裁剪为512×512 像素大小,然后,使用Bicubic 以4x 比例因子下采样得到128×128 像素大小的低分辨率图像,经过预处理后低分辨率图像与原图组成数据对,输入到RUAGAN 模型中进行训练。

2.2 对比实验

为体现改进后的模型在该数据集上的表现,将其与两种插值算法,两种基于CNN 的重建算法和四种基于GAN 的重建算法进行比较。其中算法为双线性(Bilinear)插值法、双三次(Bicubic)插值法、SRCNN、ESPCN[15]、RACN、SRGAN、ESRGAN 与BSRGAN[16]。为验证模型的泛化能力,将数据集分为训练集与测试集,分别输入到这几个模型中进行训练。为充分体现算法的处理效果,选取了数据集中两个不同部位的重建结果,如图4 所示。

图4 各模型超分辨率效果

2.3 评价指标

该文使用的评价指标为峰值信噪比、结构相似性与平均梯度(Average Gradient)。峰值信噪比与结构相似性常作为图像重建后评价图像质量的评价指标,其中峰值信噪比反映的是像素间的误差。而结构相似性侧重于人眼的视觉感知。平均梯度常用于衡量图像的清晰程度,可以认为平均梯度越大,图像清晰度越好,重建质量越好,公式如式(7)所示:

其中,M和N为图像的长和宽,和分别表示图像水方向和垂直方向的梯度。

各模型评价指标如表1 所示。

表1 各模型评价指标值对比

从图4 和表1 的实验结果来看,在对医学图像进行分辨率重建时,两种插值算法简单快速,但由于插值算法的局限性,清晰度很低,重建效果与深度学习方法有一定差距。基于CNN 网络的SRCNN 和ESPCN 模型重建效果较插值算法更好,图像更清晰,ESPCN 模型的PSNR 值与SSIM 值较Bicubic 算法分别提高了2%与11%,但重建后的图像纹理过于平滑,平均梯度分别为5.238 与5.167,清晰度低。RCAN 在三个基于CNN 网络的重建模型中效果最好,却忽略了对CT 图像中病变区域的关注侧重,虽然其PSNR 数值达到29.474,高于文中用于对比的三个GAN 模型,但纹理不自然,低频信息较其他模型更少。该文使用的局部注意力机制更适合CT 影像,PSNR 与SSIM 值较RCAN 算法分别提高了0.024 与1.425。基于GAN 的SRGAN 模型与ESRGAN 重建后纹理不清晰,对高频信息的挖掘不够深入。ESRGAN 与BSRGAN 重建过程涉及复杂的退化过程,对于肺部CT 图像进行了一系列的退化后再重建,重建后图像在亮度、对比度等方面的视觉效果较RUAGAN差,SSIM 值为0.866 与0.833。而该文模型在PSNR、SSIM 和AG上表现更好,分别为31.98、0.974 和7.725,略高于其他模型,且视觉上纹理细节丰富,边缘清晰。

3 结论

该文对医学图像进行分辨率重建RUAGAN,针对医学图像区别于自然图像的特点,在生成器部分加入局部注意力机制,并使用带有实例归一化的UNet 网络作为鉴别器,提升重建后图像的质量。实验结果表明,改进后的模型在AG、PSNR 和SSIM 上表现较好,PSNR 与SSIM 分别达到29.075 与0.901,相较于Bicubic、SRGAN、ESRGAN 算法都有提高,重建效果更好。整体视觉效果的提升有助于提高医生的阅片效率,也可用于医学图像分割、检测等实际应用中。但模型的泛化能力有待提高,下一步的研究工作将探寻提高模型泛化能力的方法,在保证重建效果的同时提高重建效率。

猜你喜欢
鉴别器纹理分辨率
基于多鉴别器生成对抗网络的时间序列生成模型
基于BM3D的复杂纹理区域图像去噪
卫星导航信号无模糊抗多径码相关参考波形设计技术*
EM算法的参数分辨率
使用纹理叠加添加艺术画特效
原生VS最大那些混淆视听的“分辨率”概念
TEXTURE ON TEXTURE质地上的纹理
基于深度特征学习的图像超分辨率重建
一种改进的基于边缘加强超分辨率算法
阵列天线DOA跟踪环路鉴别器性能分析