基于真实退化估计与高频引导的内窥镜图像超分辨率重建

2024-03-04 02:04任文琦张长青张金刚聂云峰
自动化学报 2024年2期
关键词:内窥镜残差卷积

李 嫣 任文琦 张长青 张金刚 聂云峰

医用内窥镜是一种基于图像的医学检查仪器,能够准确观察人体内部器官形态和病理变化,辅助医师进行疾病的诊断及治疗[1-2].然而对于耳鼻喉等内腔直径较小的部位,医用内窥镜的直径受到限制,其输出图像的分辨率普遍较低.此外,人体内部环境昏暗,仅凭内窥镜自带光源照亮,会导致采集的图像存在噪声、纹理特征不清晰、模糊等退化问题[3-4].低分辨率的内窥镜图像不仅影响医生对病灶的判断,还阻碍后续研究,如异常区域分割、深度估计等.因此,如何提升低分辨率内窥镜图像的质量已经成为一个重要的医学图像问题.

图像超分辨率重建是提高图像质量的一种有效手段,其能将低分辨率图像 (Low-resolution,LR)转换为高分辨率图像 (High-resolution,HR).近年来,基于深度学习的图像超分辨率算法展现出了良好的性能,其利用非线性变换自动学习多层次特征,更深入地挖掘了LR 与HR 之间的内在联系[5].Dong等[6]提出了第一个使用卷积神经网络的端到端超分辨算法SRCNN,相较于传统方法,所获得的图像边缘更清晰,包含的伪影更少.Ledig 等[7]将生成对抗网络引入超分辨算法,并提出了新的感知损失函数,使重建图像更具有真实感.Lim 等[8]通过去除批归一化层对残差块进行优化,并扩大了网络深度,使重构图像的质量有效提升.Ahn 等[9]提出了一种轻量级的级联残差网络CARN,提升了超分辨率模型的效率和性能.以上述方法为代表的深度超分辨算法大多针对自然图像开发和训练,而内窥镜图像与自然图像存在较大差异.首先是噪声干扰不同,自然图像通常由相机拍摄,噪声多为高斯噪声;内窥镜图像由内窥镜设备拍摄,噪声多为条纹噪声[10].其次是图像场景内容不同,内窥镜图像的场景多为人体器官,色彩信息单一,并且包含重要的、细小的、不明显的医学纹理细节;而自然图像场景丰富,纹理细节较为明显.此外,公开的医学图像数据集种类和包含的图像数量有限,一般不存在大量成对的LR 和HR 图像,故而不适用于常见的超分辨率算法.

目前已有一些针对医学图像的超分辨算法,如Chen 等[11]提出一种生成对抗网络指导训练的多级密集连接超分辨率网络 (mDCSRN),实现了磁共振MRI 图像的超分辨.Park 等[12]使用改进的UNet 网络实现了二维人脑CT 图像的超分辨.Mahapatra 等[13]提出一种基于生成对抗网络的眼底图像超分辨算法.现有医学研究的影像模态主要为CT 图像和MRI 图像[14],不同医疗领域的医学图像模态差异大,图像特点各不相同,不能直接互用.对于内窥镜图像,基于深度学习的超分辨算法[15-18],虽然在一定程度上实现了内窥镜图像的超分辨,但是这些算法都是通过插值下采样的方法获得用于训练的LR-HR 图像对.使用这样一种单一的、与现实不符的退化方式生成LR 图像,一方面导致模型的泛化性差,另一方面与真实图像分辨分布差异大,无法重建出高频纹理细节,而这些丢失的细节内容对医学图像至关重要,可能影响医生对病情的判断.

为解决上述问题,本文提出一种针对真实内窥镜图像的超分辨算法,该算法分为两个模块: 退化模块和超分辨率模块.退化模块提出一种新颖的内窥镜模糊核和噪声的估计及注入算法,可直接从真实LR 内窥镜图像提取丰富多样的模糊核和噪声,然后通过随机注入和多噪声拼贴的方式作用于真实HR 内窥镜图像,以生成与真实LR 内窥镜图像分布相近的训练数据.超分辨率模块则提出一种高频引导的残差密集网络,使用基于高低频信息交互的频率分离策略,提取多级高频特征;再采用多层级融合策略,将多级高频特征逐层融入残差密集模块的分层特征,以引导其恢复出良好的纹理细节.此外网络还采用了残差嵌套结构,进一步加深了网络深度,提升了网络性能.本文的贡献总结如下:

1) 本文提出一种针对真实内窥镜图像的退化估计及注入算法,基于真实低分辨率图像提取内窥镜相关的模糊核与噪声模式,用于合成与真实域更接近的低分辨率内窥镜图像.

2) 本文提出一种新颖的高频信息引导的超分辨率网络结构,采用基于双频率交互的频率分离策略,以及多层级融合机制,提取的多级高频信息引导构建残差密集块的多层特征,重建出细节保留较好的高分辨率内窥镜图像.

3) 一系列的对比和消融实验证明了本文提出的退化框架以及超分网络的有效性,相比其他方法具有更好的视觉效果和更高的客观质量评价.

1 相关工作

1.1 超分辨率算法的退化估计

许多基于卷积神经网络的超分辨率算法取得了优于传统方法的性能和效果.这些算法[8,19-25]通常使用双三次插值下采样的退化方法构建训练所需的{LR,HR}图像对.经过双三次下采样得到的图像会丢失高频细节,同时低频内容更清晰[26],而真实图像存在多种模糊和噪声[27],故这类合成图像与真实图像存在域差异,导致超分辨率算法在合成图像上取得很好的结果,但在真实测试图像上效果很差.

为解决该问题,一些研究者通过向HR 图像注入预定义的模糊核与噪声,以生成具有复杂退化的LR 图像,再用此图像对训练网络.如Zhang 等[28]采用各向同性和各向异性的高斯模糊核,噪声为水平在[0,75]之间的高斯白噪声合成LR 图像.Zhang等[29]采用高斯模糊核、运动模糊核、散焦模糊核、高斯白噪声合成LR 图像.BSRGAN[30]将模糊、下采样、噪声这三种退化赋予多种类型,如模糊分为各向同性、各向异性高斯模糊核,下采样分为最近邻、双线性、双三次插值,噪声分为不同水平的高斯噪声、不同质量因子的JPEG 压缩、相机传感器噪声,再将以上各种类型的退化随机组合作为HR 图像的退化.

另外一些研究者则提出了自适应学习退化的方法,旨在生成与真实图像同域的LR 图像.Fritsche等[31]提出一个生成对抗网络DSGAN 模拟退化过程,使生成的LR 图像保留双三次下采样LR 图像的低频信息,并拥有真实图像的高频信息.Lugmayr 等[32]通过生成对抗网络和循环一致性损失学习双三次下采样LR 图像与真实LR 图像之间的分布映射,以克服它们之间的域差异.Chen 等[33]将退化过程建模为两个步骤,HR 图像到合成LR 图像的退化,以及合成LR 图像到真实LR 图像的域映射,之后使用生成对抗网络学习此退化过程.

本文研究的是内窥镜图像的超分辨,内窥镜采用小型图像传感器实现成像,图像通常采用高速串行信号或模拟信号传输,在传输过程中容易受到干扰,常导致图像出现条纹噪声[10],故而使用人工构造的不同模糊程度的模糊核以及不同级别的加性随机噪声,不符合真实内窥镜图像的退化过程.而自适应学习退化的方法模型复杂,且大多基于稳定性低的生成对抗网络,难以应用到实际医学场景.本文设计了一种新颖的退化估计算法,从真实LR 内窥镜图像估计其专有的模糊核与噪声模式.之后在数据准备阶段又设计了一种退化注入算法,将估计的退化注入高质量的内窥镜图像,以生成与真实内窥镜图像同域的LR 图像.

1.2 基于频率的深度超分辨方法

近年来,已经提出了一些基于频率和深度学习的图像超分辨率算法,大致可以分为两类.一类将图像由空域转换至频域,进而获取不同频率信息[34-38].如Xie 等[34]通过离散余弦变换 (Discrete cosine transform,DCT) 将图像转至频域,并将特征分解为高、中、低频信息,分别应用不同复杂度的卷积层,再融合结果,获得最终的超分辨率结果.Yun 等[35]通过DCT 变换将图像转换至频域,使用超参数提取高频分量,再转换至空间域并应用通道注意力机制获得重建结果.在超分辨率领域,因傅立叶变换涉及复数,故大多数算法使用DCT 进行频域转换.DCT 变换会获得多个频率子带,中间部分的子带隶属于低频抑或是高频,这一点难以界定,此外,图像在空域和频域之间的频繁转换,增加了网络的复杂性.另一类是在空域里直接分离频率信息[31,39-41].Fritsche 等[31]使用线性滤波器分离低频和高频信息,并制作了相应的低频、高频损失用于超分辨网络.Pang 等[39]把LR 图像逐步输入到三个卷积层,认为每一层的特征图代表不同的频率信息,使用注意力机制处理并融合这些信息,恢复出高分辨率图像.Liu 等[40]使用卷积均值滤波器进行频率分离,用不同的模块对分离的频率进行处理,再通过加法运算组合,最终使用上采样块重构整幅图像.然而,这些方法完全孤立了低频与高频信息,没有考虑低频信息与高频信息的相互作用,而频率间交互是十分重要的[41].本文在空间域分离高低频信息,但并非一次性分离低频与高频信息并分而治之.而是低频与高频信息多次交互通信,分离出多级高频信息.再使用多层级融合策略,使多级高频信息逐层融入残差密集块,充分引导其构建包含高频信息的特征.

2 基于真实退化估计与高频引导的内窥镜图像超分辨网络模型

本文模型分为两个部分: 退化框架和超分模型.退化框架从真实LR 内窥镜图像估计退化,再将退化注入真实HR 内窥镜图像,以生成逼真的、与之配对的低分辨率内窥镜图像,退化框架示意图如图1所示.超分模型则利用退化模型构造的成对数据,通过本文提出的高频引导的残差密集超分辨网络,获得细节保留完好、内容清晰的超分辨率内窥镜图像,超分模型网络结构示意图如图2 所示.

图2 HGRDN 示意图Fig.2 Overview of the HGRDN

2.1 退化框架

2.1.1 退化估计

本文从真实LR 内窥镜图像直接估计模糊核和噪声,以确保医学图像的真实性和准确性.

模糊核估计.本文使用KernelGAN[42]作为模糊核估计算法,KernelGAN 的生成器是深度线性网络,不包含任何非线性的激活函数,所以训练后KernelGAN 的网络权重参数能够以矩阵的形式输出,作为一个固定的模糊核.本文利用KernelGAN这一原理,以单张真实低分辨率内窥镜图像作为输入,训练本张图像对应的KernelGAN,训练结束后生成器的网络模型参数即为该张图像的模糊核.我们将所有真实低分辨率内窥镜图像单独对应的模糊核放入一个称作模糊核退化池的容器,以供后续步骤使用.

噪声估计.文献[26,43]表明从原始噪声图像中筛选背景内容少、内部像素相似的区域可作为噪声图像块.受其启发,我们设计了一种专门针对内窥镜图像的噪声筛选算法,用以直接从真实LR 内窥镜图像提取医学内窥镜图像的噪声模式.根据研究,图像的方差可代表图像的对比度,均值可代表图像的亮度[44].由于噪声图像块内部像素相似,说明其内部像素对比度不高,所以本文设定最大对比度,也即最大方差 (maxV ar),来筛选对比度在一定范围的图像块.由于噪声主要存在于图像低亮度区域[45],所以本文设定最大亮度,也即最大均值(maxMean),来筛选亮度在一定范围的图像块.因真实LR 内窥镜图像的分辨率一般较小,故而提取的图像块尺寸不能过大,否则容易引入图像结构信息.具体的筛选算法如算法1 所示,其中maxV ar和maxMean均为经验设定.最终提取的噪声图像块如图3(b)所示,可直观看出提取的噪声不同于一般的加性高斯噪声,并且与内窥镜常见的条纹噪声[10]具有一致的分布特性.

图3 常见加性高斯噪声与内窥镜噪声对比Fig.3 Comparison of common additive Gaussian noise with endoscopic noise

算法1.真实LR 内窥镜图像提取噪声图像块

2.1.2 退化注入

退化注入前,HR 内窥镜图像会进行数据处理,具体操作过程见第3.1 节训练集部分,最终获得尺寸为256×256 的图像块.设置IHR代表HR 内窥镜图像的训练图像块,k代表模糊核,n代表噪声,↓s代表尺度系数为s的下采样,⊗ 代表二维卷积,其退化过程可用如下公式表示[26,46],ILR为经退化所获得的LR 内窥镜图像的图像块.{IHR,ILR} 为配对图像.

注入模糊核.从模糊核退化池随机选取一个模糊核,由于该模糊核为一个给定数值的矩阵,可看作是一种卷积核,依照式 (1) 将其与IHR进行卷积,之后进行下采样操作,取尺度系数为4,则获得模糊且下采样四倍的模糊图像Iblur,其尺寸为64×64.

注入噪声.模糊图像Iblur拆分为多个16×16 的图像块,在退化池中随机选取多个噪声图像块,裁剪尺寸至16×16 并进行归一化操作,之后与模糊图像Iblur的多个图像块分别相加,获得最终的ILR.将退化池的噪声裁剪为16×16 后再进行注入,旨在向模糊图像Iblur注入数量更多、种类更繁的噪声,以充分还原真实图像的情况.

通过从退化池中随机选取真实图像的模糊核和噪声,极大地提高了合成图像ILR的多样性和真实性.需要说明的是,Ji 等[26]也提出了一种退化估计框架,但本文与其存在较大不同: 1) 退化估计的来源不同.Ji 等[26]从HR 图像估计模糊核和噪声,再将其注入HR 下采样后的图像.本文从真实LR 图像估计模糊核与噪声,再将其注入HR 图像,真实性和准确性更高.2) 提取噪声的理论依据、具体算法,以及噪声注入算法均不一致.Ji 等[26]主要针对自然图像设计,本文则专门针对内窥镜图像设计.

2.2 内窥镜图像超分辨率网络模型

2.2.1 网络结构

如图2 所示,本文对ESRGAN[47]进行改进,针对医学图像需要保留高频细节纹理这一特点,以及频率信息对空域信息有补充作用这一优势,提出使用频率分离策略和多层级融合机制的高频引导残差密集网络 (High-frequency guided residual dense network,HGRDN),该网络由四部分组成: 浅层特征提取、残差嵌套模块、上采样模块、重建模块.假设ILR和ISR为 HGRDN 的输入和输出,首先使用一个 3×3 的卷积对ILR进行浅层特征提取,使用零填充策略保持特征图尺寸不变:

其中,HSF(·) 表示卷积操作,FSF表示浅层特征.之后FSF输入残差嵌套模块,该模块由23 个残差组(Residual group,RG) 和长跳跃连接组成,每个残差组包含3 个高频引导的残差密集块 (High-frequency guided residual dense block,HGRDB) 和短跳跃连接:

其中,HRIR(·) 表示残差嵌套模块的函数,FDF为经过该模块后得到的深层特征.有关HGRDB 的具体结构在第2.2.3 节详细阐述.之后FDF输入上采样模块,该模块由两个尺度因子为×2 的最近邻插值及 3×3 卷积构成:

其中,HUP(·) 表示上采样模块的复合函数,FUP为上采样后的特征.重建模块由一个卷积核为3×3的卷积组成:

其中,HREC(·) 表示重建模块的复合函数,ISR为重建后的超分辨率图像.

2.2.2 残差嵌套模块

文献[8,48-49]观察到更多的层和连接可以提高网络的性能,而残差嵌套结构则使得训练层次更深的卷积神经网络成为可能.文献[49]也提到残差组和长跳跃连接使得网络能够关注到LR 图像的更多信息.

基于上述残差嵌套的优点,本文采用RCAN[49]中关于残差嵌套部分的设计,图2(a)展示了本文的残差嵌套模块,其采用残差组 RG 作为基本模块,第d个 RG 可公式化为:

其中,HRG,d代表第d个 RG 的函数,Fd-1和Fd代表第d个 RG 的输入和输出,FSF表示浅层特征.与文献[49]一样,本文在多个残差组之后使用长跳跃连接和残差学习,以稳定网络的训练:

其中,FSF代表浅层特征,W代表残差嵌套模块末尾卷积层的权重,此处省略了偏置项,FD代表最后一个 RG 的输出特征,FDF为经过残差嵌套模块后得到的深层特征.

如第2.2.1 节所述,每个残差组 RG 内部包含3个高频引导的残差密集块 (HGRDB) 和短跳跃连接,如图2(b)所示,第d个 RG 的第n个 HGRDB 可以公式化为:

其中,Fd-1和Fd代表第d个 RG 的输入和输出特征,代表第d个 RG 的最后一个 H GRDB 的输出特征.

2.2.3 高频引导的残差密集块HGRDB

图2(c)展示了 H GRDB 的具体结构,其由高频引导层、残差密集块组成.值得一提的是,文献[47-49]也提出了残差密集块,然而这些方法没有考虑图像频率信息的差异性,对图像的低频与高频信息平等地对待,没有充分利用LR 图像的高频信息重建图像.为克服以上缺点,我们采用基于双频率信息交互的频率分离策略,提取多级高频信息,再使用多层级融合机制,使高频信息与残差密集块提取的分层特征相结合,以增强重建图像的细节恢复能力.本文基本块能关注到更多的高频信息,如细节、边缘、纹理等,而这恰恰是医学图像不可或缺的重要信息.

高频引导层.一幅图像由高频和低频信息组成,其中高频部分代表局部的细节,低频部分则代表全局的内容且一般存在大量冗余.类似的,卷积层输出的特征图也可以分为低频和高频.根据这一现象,Chen 等提出一种新颖的 Octave 卷积[41],其能够分离频率,获取不同频率的信息,并且在 Octave 卷积过程中,低频与高频按一定规则进行信息交流与更新.我们采用这一思想,设计了一种基于双频率信息交互的频率分离策略.该策略级联多个 Octave 卷积,以此进行多轮高低频信息交互和更新.相较于一次性彻底分离高低频的方法[31,39-40],这种双频率因素交互式作用更新的方法,可以实现较全面的信息补偿,以便充分挖掘频率信息.每轮 Octave 卷积输出的高频信息被嵌入下方密集块的对应层级,以引导其构建保留高频信息的特征.我们将上述频率分离策略的具体实现结构定义为高频引导层,如图2(c)所示.

在本文中,高频引导层共级联5 个 Octave 卷积.假设第i个 Octave卷积的输入特征图为Xi ∈Rcin×h×w,输出特征图为Yi ∈Rcout×h×w.cin和cout表示输入特征图和输出特征图的通道数,h表示特征图的高,w表示特征图的宽.依前文所述,特征图可看作由低频分量和高频分量组成,则Xi可表示为,Yi可表示为,其中H 代表高频分量,L 代表低频分量.按照 Octave 卷积[41]的定义,输入特征图的低频分量会进行2 倍空间下采样以压缩信息,故而输入输出特征图的低频和高频分量可以表示如下:

其中,αin和αout表示输入和输出特征图中低频部分所占的比例,是范围为[0,1]的超参数.

单个 Octave 卷积的过程如图4 所示.其输入是前段所述的.之后同频率的特征进行信息更新,不同频率的特征进行信息交流.最终输出更新后的高频信息和低频信息其中被嵌入进下方残差密集块的对应层级.整个过程可用公式表达如下:

图4 Octave 卷积之高低频率信息的交互Fig.4 The high-low frequency information interaction of Octave convolution

值得注意的是,按照文献[41]的定义,第一个Octave卷积的输入一般为普通卷积的特征图,为将其转换为多频特征的表示,设置该特征图只包含高频分量,不包含低频分量,即第一个 Octave 卷积层的αin设置为0,则第一个Octave 卷积层的输入特征图X1表示为

残差密集块.受文献[47-48]启发,残差密集块能够充分利用所有卷积层的分层特征,并且提高网络的容量,故本文采用残差密集块来提取LR 图像的丰富局部特征,其具体结构如图2(c)下半部分所示,总共包含五个卷积层和一个短跳跃连接.在本模块,提出了一种多层级融合机制,即从第二个卷积层开始,每个卷积层的输入特征不仅包含密集块的输入特征、前序卷积层的输出特征,还包含高频引导层的高频信息,这样每层卷积的特征会被融入对应层级的高频信息,由此起到高频引导的作用.每个卷积层的输出特征图可以用以下公式表示:

其中,Fc表示第c个卷积层的输出特征图,σ表示LReLU 激活函数,Wc表示第c个卷积的权重,此处省略了偏置项.X1表示残差密集块的输入特征图,[·] 表示特征图的连接,表示高频引导层的第i个 Octave 卷积提取的高频分量,i=1,2,3,4.加入残差后,最终HGRDB 的输出为:

其中,FHG表示此HGRDB 模块的输出特征,X1表示此HGRDB 的输入特征,FC表示经过残差密集块最后一个卷积层的输出特征图.

2.3 训练细节

为充分验证本文退化框架及超分辨网络的有效性,我们借鉴ESRGAN[47]和BSRGAN[30]的设置,首先训练面向峰值信噪比 (Peak signal noise ratio,PSNR) 的网络模型HGRDNet,然后训练面向视觉质量的模型HGRDGAN,这两种模型均使用HGRDN 的网络结构,不同点仅在于损失函数.HGRDNet 使用L1损失,HGRDGAN 使用L1损失、感知损失[47]、对抗损失[47],其权重分别为0.01,1,0.005.面向PSNR 的HGRDNet 模型能在数值上客观体现出模型的优劣,但是其往往由于像素平均问题而产生过度平滑的视觉结果[7],面向视觉质量的模型HGRDGAN 使用了感知损失和对抗损失,这种感知驱动的方式会在视觉上达到最优效果,但无法体现在PSNR 这些传统指标上.因此在后续实验中,我们主要使用HGRDNet 模型进行定量实验以验证本文网络模型在PSNR 等传统指标上的数值结果,使用HGRDGAN 模型进行定性实验以验证本文模型的视觉效果.

训练设置batchsize为16 张图像.初始的学习率为 1×10-4,且在第[50k,100k,200k,300k]迭代周期时学习率减半,k=1 000.对于优化,使用Adam优化器[50],参数设为β1=0.9,β2=0.999,交替更新生成器和鉴别器网络,直到模型收敛.本文实验采用PyTorch 框架,使用单张NVIDIA TITAN RTX的GPU 卡训练网络.

3 实验

3.1 训练集

本文退化模型的输入是非配对的真实HR 内窥镜图像和真实LR 内窥镜图像.其中真实HR 内窥镜图像采用胃肠道内窥镜图像数据集Kvasir v2[51]食管炎类别和正常幽门类别的图像,总共2 000 张,分辨率为1 280×1 024.真实LR 内窥镜图像由合作医院提供,总共296 张,分辨率为400×400.

真实HR 内窥镜图像进行数据处理,首先中心裁剪尺寸至1 000×1 000,之后进行clean-up 操作[26],以产生近似无噪声图像,然后裁剪至256×256,作为真实HR 内窥镜图像的训练图像块IHR.真实LR 内窥镜图像按照退化模型的退化估计模块,进行模糊核和噪声估计,退化估计完成后,IHR按照退化模型的退化注入模块获得ILR,最终 {ILR,IHR}配对图像为超分模型的训练集,共2 000 对.

3.2 测试集

因为在内窥镜图像领域,目前尚不存在现成的真实低分辨率内窥镜图像及其对应的GT (Ground truth,GT) 图像这种配对数据集,为客观公正,本文构造了两个定量数据集,构造过程遵循本文第2节的退化估计及注入步骤.首先从合作医院获取15 张未在训练集里出现的、由同一个内窥镜设备采集的真实LR 内窥镜图像,从中提取多个模糊核和噪声图像块.

定量测试集A.从数据集Kvasir v2[51]正常Z线类别获取图像100 张,中心裁剪尺寸至800×800,作为GT.上述提取的多个模糊核和噪声按照第2 节的退化注入模块与GT 图像作用,生成对应的LR 图像,尺寸为200×200.

定量测试集B.为进一步验证本文方法的效果,从合作医院获取真实HR 内窥镜图像100 张,中心裁剪尺寸至800×800,作为GT.上述提取的多个模糊核和噪声按照第2 节的退化注入模块与GT图像作用,生成对应的LR 图像,尺寸为200×200.

为验证本文方法的鲁棒性,构建了两个只进行简单下采样而非用本文退化框架的测试集,分别为定量测试集C 和定量测试集D.

定量测试集C.从数据集Kvasir v2[51]正常Z线类别获取图像100 张,中心裁剪尺寸至800×800,作为GT.对GT 做双三次下采样,生成对应的LR 图像,尺寸为200×200.

定量测试集D.从合作医院获取真实HR 内窥镜图像100 张,中心裁剪尺寸至800×800,作为GT.对GT 做双三次下采样,生成对应的LR 图像,尺寸为200×200.

定性测试集.从数据集Kvsir-Capsule[52]选取100 张图像作为定性数据集,图像尺寸为336×336.该数据集通过胶囊内窥镜获取,采集的部位集中于胃肠道区域,采集的图像为真实内窥镜LR 图像,无对应的GT 图像.

3.3 对比实验

本文提出的方法与多个先进的图像超分辨算法进行比较,其中包含六种针对自然图像的超分辨方法: 基于实用退化模型的盲图像超分辨率网络(Designing a practical degradation model for deep blind image super-resolution,BSRGAN)[30],基于真实退化框架的超分辨率网络 (Realistic degradation framework for super-resolution,RealSR)[26],基于纯合成数据的真实盲超分辨率网络 (Realworld blind super-resolution with pure synthetic data,RealESRGAN)[53],频率分离的真实超分辨率网络 (Frequency separation for real-world superresolution,FSSR)[31],深度展开的图像超分辨率网络 (Deep unfolding network for image super-resolution,USRNet)[54],学习退化分布的盲图像超分辨率网络 (Learning the degradation distribution for blind image super-resolution,PDMSR)[55]以及一种针对医学图像的超分辨方法: 反馈自适应加权密集超分辨率网络 (Feedback adaptive weighted dense network,FAWDN)[56].其中,对于退化模型,BSRGAN[30],RealSR[26],RealESRGAN[53],USRNet[54],FAWDN[56]采用的是人为设定的特定退化模型,FSSR[31],PDMSR[55]采用的是不配对的真实HR 和LR 图像生成的退化模型.对于超分辨模型,RealSR[26]和FSSR[31]是面向视觉质量的模型,USRNet[54],FAWDN[56],PDMSR[55]是面向PSNR 的模型,而BSRGAN[30],RealESRGAN[53]与本文一样,具有两种模型,即面向PSNR 的模型BSRNet[30],RealESRNet[53]和面向视觉质量的模型BSRGAN[30],RealESRGAN[53].为保证公平,我们使用其面向PSNR 的模型进行定量实验,使用其面向视觉质量的模型进行定性实验.上述对比方法均使用本文训练集重新训练或对其预训练模型微调,超分辨的比例因子为4,重建图像的客观质量对比结果如表1所示,最优值用粗体表示,次优值用下划线表示.在表1 中为方便起见,统一使用BSRGAN,RealESRGAN,HGRDN 的算法名称来代表各自对应的两种模型.

表1 各方法在定量测试集的客观结果Table 1 The objective results of different methods in quantitative testsets

3.3.1 定量实验

本文使用PSNR 和结构相似度 (Structural similarity,SSIM) 指标来客观衡量各方法在定量测试集A、B、C、D 上的超分辨率结果,结果如表1 所示,我们的模型HGRDN 取得了最优的结果,在四个数据集上PSNR 和SSIM 均取得了最高值.由于本文算法着重恢复内窥镜图像的细节,为验证高频细节的恢复效果,本文引入了高频指标: 高频PSNR和高频SSIM.首先我们使用高通滤波器[57]处理各方法的输出图像,获得各方法的高频图.再使用高通滤波器处理定量数据集A、B 的GT 图像,获得对应的高频图.最后计算各GT 高频图与各方法的高频图之间的PSNR 值、SSIM 值,获得各方法的高频PSNR 值和高频SSIM 值,结果如表2 所示.我们的模型HGRDN 取得了最优的结果.

表2 各方法在定量测试集的高频结果Table 2 The high-frequency results of different methods in quantitative testsets

除数值结果外,我们还展示了定量测试集上的视觉结果,如图5 所示,HGRDNet,BSRNet[30],RealESRNet[53],USRNet[54],PDMSR[55],FAWDN[56]这些面向PSNR 模型,虽然客观评价指标较高,但往往存在过度平滑现象,这是面向PSNR 模型本身特性导致的.而RealSR[26]和FSSR[31]这两个面向视觉质量的模型,虽然具有较低的客观评价指标,但是视觉效果却相对优秀.这说明PSNR 和SSIM指标虽可在一定程度上反映模型重建图像内容的能力,但却不符合人眼的视觉感知,因此我们更关注符合实际应用的面向视觉质量模型HGRDGAN.

图5 各方法在定量测试集上的视觉结果Fig.5 The visual results of different methods in quantitative testsets

3.3.2 定性实验

图6 展示了本文模型HGRDGAN 在定性数据集上与其他方法的视觉对比结果,我们着重放大了重建图像的局部内容,从中可直观地看出本文模型在细节纹理的重建上优于其他方法,结果更清晰更富有层次性.从图中可以看出,所有对比方法都呈现出模糊不清晰的现象,其中FSSR 方法因对噪声估计不准确出现了许多白点,RealSR 方法因对纹理细节关注不够出现了一些伪影.而本文模型纹理边缘清晰,无伪影和噪声,同时还充分恢复出了很多微小之处,如毛细血管以及各个组织表面的纹理,这是其他对比方法不曾关注的地方.这说明这些对比方法的退化模型和超分模型不适用于医学内窥镜图像.我们的退化模型是直接从真实内窥镜图像提取退化,所以真实性更高,更符合实际情况.我们的超分模型设计了高频引导层,所以增强了高频信息,充分挖掘了医学图像的纹理细节.与图5 定量数据集的视觉效果对比,也可得出结论,使用面向视觉质量的感知损失和对抗损失令模型更加关注图像的视觉特征,得到的结果也比使用像素损失的结果更清晰.

图6 各方法在定性测试集上的视觉结果Fig.6 The visual results of different methods in qualitative testsets

由于定性数据集没有GT,故我们采用无参考图像的质量评估指标NIQE[58]和PI[59]进行定量评估.NIQE 和PI 的值均是越低代表感知质量越好,由表3 所示本文模型在NIQE 和PI 的数值均为最低,即人眼主观感受最好.

表3 不同方法在定性测试集的客观结果Table 3 The objective results of different methods in the qualitative testsets

3.4 消融实验

为进一步验证模糊核与噪声的估计和注入在退化框架中的必要性,验证高频引导层在超分辨模型中的有效性,我们进行了以下消融实验:

去除噪声模块.在退化框架中删除真实噪声的估计与注入模块,仅保留模糊核的估计与注入模块,以验证噪声模块的有效性.

去除模糊模块.在退化框架中删除真实模糊的估计与注入模块,以双三次插值下采样代替之,并保留真实噪声的估计与注入模块,以验证模糊核模块的有效性.

去除高频模块.设置超分模型高频引导的残差密集块不包含高频引导层,仅保留残差密集块.此时网络模型与基线网络ESRGAN[47]一致.

以上实验的训练设置与第2.3 节一致.由表4可知完整模型在定量数据集A 和B 上的PSNR 和SSIM 数值仍为最优,这说明真实噪声与模糊核的退化估计与注入,以及高频引导模块均提升了模型的性能,缺一不可.图7 展示了本文完整模型与各消融实验在定性数据集上的重建结果.如图7(a)所示,去除噪声模块的图像出现了许多伪影,而去除模糊模块和完整模型未曾出现这类现象,这表示缺乏真实噪声的注入,模型无法识别真实测试图像的噪声,进而重建结果出现偏差,这说明了真实噪声估计与注入的有效性.如图7(b)所示,去除模糊模块的图像非常模糊,这说明常见的双三次下采样方法不符合内窥镜图像的真实退化过程,故而在对真实内窥镜图像重建时无法恢复具体细节,说明了真实模糊估计的重要性.如图7(c)去除高频模块的图像纹理与细节边缘不如完整模型清晰明显,这说明高频引导模块的确加强了边缘、纹理等高频信息,使模型拥有更细腻的细节重建能力.

表4 消融实验定量结果Table 4 The quantitative results of the ablation experiments

图7 消融实验的视觉结果Fig.7 The visual results of the ablation experiments

4 结论

本文提出一种基于真实内窥镜图像退化估计的高频引导超分辨网络.针对内窥镜图像的模糊核和噪声,设计了一种新颖的退化框架,旨在解决常规下采样方式生成的配对图像存在域差异的问题,获得符合真实域的退化图像.同时,在超分辨阶段,本文开发了基于双频率信息交互的频率分离策略以及多层级融合机制,以重建完整清晰的重要纹理与细节.大量实验表明,与其他算法相比,本文提出的方法可以产生更高质量的重建效果.

猜你喜欢
内窥镜残差卷积
基于双向GRU与残差拟合的车辆跟驰建模
一种具有附加内窥镜功能的医疗管
电子内窥镜临床评价要求探讨
内窥镜技术研究进展
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
从滤波器理解卷积
基于傅里叶域卷积表示的目标跟踪算法
平稳自相关过程的残差累积和控制图