基于密集残差连接U型网络的噪声图像超分辨率重建

2024-03-15 03:27刘鹏南李龙张紫豪朱星光程德强

工矿自动化 2024年2期

刘鹏南，李龙，张紫豪，朱星光，程德强

（1.中国矿业大学信息与控制工程学院，江苏徐州 221116；2.山东黄金矿业（莱西）有限公司，山东青岛 266600）

0 引言

在煤炭开采作业中，粉尘、水雾及低光照条件常导致井下目标图像的成像分辨率低，使得人眼在复杂工作环境中难以捕捉到足够的细节信息，对煤炭生产过程进行监控和管理变得异常困难[1]。图像超分辨率重建旨在从低分辨率图像中恢复出高分辨率图像，以提供更多细节信息，有助于改善图像的可视化质量和信息传递效果[2]。

目前图像超分辨率重建方法主要分为3类：基于插值的方法[3]、基于重构的方法[4-5]和基于学习的方法[6]。基于插值的方法可快速得到重建结果，但重建图像会存在边缘模糊的问题。基于重构的方法计算量少，但在重建过程中会忽略图像的高频细节信息，导致重建图像不真实。基于学习的方法可提取更丰富、更具体的图像细节信息，图像重建效果优于前2种方法，其主要采用早期的浅层机器学习与当下常用的深度学习来完成图像超分辨率重建任务。

在基于学习的方法中，研究人员已经提出了许多网络来完成图像超分辨率重建任务。Yang Shuyuan等[7]提出了基于稀疏编码理论的图像超分辨率重建网络，该网络主要通过图像的稀疏表示学习获得高分辨率字典与低分辨率字典，并根据高低分辨率图像之间的映射关系对图像进行重建。Dong Chao等[8]提出了超分辨率卷积神经网络（Super Resolution Convolutional Neural Network，SRCNN），首次将深度学习引入图像超分辨率重建领域；之后，Dong Chao等[9]提出了快速超分辨率卷积神经网络（Fast Super-resolution Convolutional Neural Network，FSRCNN），该网络通过引入可以改变特征维度的反卷积层，实现了加速网络训练的目的。Shi Wenzhe等[10]提出了高效的亚像素卷积神经网络（Efficient Sub-pixel Convolutional Neural Network，ESPCN），实现了在网络中对图像进行缩放的目的，加快了网络对图像重建的速度。He Kaiming等[11]提出了残差网络（Residual Network，ResNet），用来解决网络深度较大时训练困难的问题。J.Kim等[12]提出了极深超分辨率卷积神经网络（Very Deep Convolution Networks for Super-resolution，VDSR），该网络深度达20层，相较于浅层网络具有更好的性能。B.Lim等[13]提出了增强型深度超分辨率卷积神经网络（Enhanced Deep Super-resolution Network，EDSR），该网络去除了批归一化层[14]，且网络深度进一步增加，图像重建效果得到进一步提升[15]。Zhang Yulun等[16]提出了残差密集网络（Residual Dense Network，RDN），该网络利用密集连接的方式将各层级之间的特征充分融合，得到了更好的图像重建效果。Chen Liangliang等[17]提出了基于内容引导的单图像超分辨率深度残差网络（Content-guided Deep Residual Network for Single Image Super-resolution，CDRN），该网络增加深度的同时对图像内容进行导向化，以准确实现图像细节的超分辨率重建。程德强等[18]提出了多通道递归残差图像超分辨率网络（Multi Channel Recursive Residual Image Super-resolution Network，MCRRN），该网络改变了传统的用跳跃连接进行特征融合的方式，将不同层的特征进行跨尺度融合，使网络学习到更丰富的特征，改善了图像重建效果。

虽然以上网络对于图像超分辨率重建具有较好的性能，但存在以下问题：① 上述网络未考虑噪声环境的影响，应用背景多是理想环境下的低分辨率图像，无法在对低分辨率图像重建的同时去除噪声。② VDSR，EDSR，CDRN等网络通过增加网络深度的方式来提升特征提取能力，但该方式会使网络无差别地对待图像特征，无法对图像关键特征进行有效提取，且随着网络深度的增加，容易出现高频细节信息丢失的问题，导致网络重建性能下降。

针对上述问题，本文以卷积神经网络中的U-Net结构为基础，提出了一种密集残差连接U型网络，用于对低分辨率噪声图像进行超分辨率重建。在密集残差连接U型网络中，设计了一种基于密集残差连接的去噪模块（Dense Residual Connected Denoising Module，DRCDM），利用残差学习的特点对低分辨率噪声图像进行有效去噪；提出了一种残差特征注意力蒸馏模块（Residual Feature Attention Distillation Module，RFAM），该模块通过增强特征注意力块（Enhanced Feature Attention Block，EFAB）对不同空间的特征赋予不同的权重，可加强网络对于图像关键特征的提取能力，同时减少图像细节特征在残差块中的损失，从而提升图像重建质量。

1 密集残差连接U型网络

1.1 整体网络结构

对U-Net进行改进，得到密集残差连接U型网络，其结构如图1所示。① 在特征提取路径中去除最大池化层，不再改变特征尺寸，只扩大特征通道数，最大程度减少图像分辨率的丢失。② 为降低网络训练难度，不再使用U-Net的5层结构，只使用3层结构，即对特征通道数进行2次扩张，每次扩张都会使本层特征通道数扩大为上一层的2倍。③ 在特征提取路径中引入DRCDM，对低分辨率噪声图像进行噪声去除。④ 在重建路径中引入RFAM，从而提取更关键的特征，且残差连接的存在可有效防止梯度爆炸、梯度消失、网络退化等问题，以确保获取的图像特征被充分利用。

图1 密集残差连接U型网络结构Fig.1 Dense residual connected U-shaped network structure

首先使用64个3×3大小的卷积层（Convolution Layer）将RGB噪声图像转换成粗特征F0，并通过ReLU函数对粗特征进行非线性激活。接着将F0输入去噪模块，去噪模块主要学习干净图像和噪声图像之间的残差，并最小化其差异：

式中：X为估计出的干净图像；Y为带有噪声的图像；R（·）为去噪函数；V为噪声图像和干净图像的残差。

去噪模块的输出经过2个卷积块（Convolution Block）分别将特征通道数扩展为128，256，扩展后的2个特征分别为F1，F2。

式中fe（·）为特征通道数的扩展操作。

接着通过4个RFAM对F2进行细节特征提取，再经过3×3大小的卷积层将F2的特征通道数降到128，降维后的特征为

式中：fr（·）为特征通道数的降维操作；fRFAM（·）为RFAM细节特征提取操作。

随后将F1′输入4个RFAM进行特征细化，并经过1个 3×3大小的卷积层将特征通道数降到64，降维后的特征为

之后将F0′通过亚像素卷积进行像素重排，并通过最后一个3×3大小的卷积层将特征通道数还原为3，得到重建后的图像：

式中fps（·）为像素重排操作。

1.2 DRCDM

在用于去噪的卷积神经网络（Denoising Convolutional Neural Network，DnCNN）中加入残差块及密集连接，得到DRCDM，其结构如图2所示。

输入的粗特征先经过64个3×3大小的卷积层进行细化，再由ReLU函数进行非线性激活。接着利用密集连接特征融合注意力块（Densely-Connected Feature Fusion Attention Block，DFAB）对图像的关键特征进行提取。

DFAB结构如图3所示，主要由4个残差特征融合层（Residual Feature Fusion Layer，RFL）通过密集连接构成。RFL由1个残差块（Residual Block）及1个特征融合层（Feature Fusion Layer）组成，其中残差块通过32个3×3大小的卷积层进行特征提取，特征融合层先对输入特征进行通道维度串接（Concat）操作，再通过1个1×1大小的卷积层降维。浅层特征及每个RFL的输出都采用密集特征融合的方式在特征融合层进行特征融合。接着通过卷积块注意力模块[19]（Convolutional Block Attention Module，CBAM）对输入特征进行加权，提高网络对图像关键特征的提取能力。最终通过64个3×3大小的卷积层将特征通道数还原为64。

图3 DFAB结构Fig.3 Structure of densely-connected feature fusion attention block

DFAB的输出通过由卷积层、去归一化层（Batch Normalization，BN）及ReLU函数串联组成的模块进行深层特征提取，再通过3个3×3大小的卷积层将特征通道数还原为输入的三通道。

1.3 RFAM

增加卷积神经网络深度有利于提升特征提取能力，但过深的网络容易导致高频信息丢失，且无法差别对待特征，带来多余的信息干扰。残差特征蒸馏模块[20]通过卷积层以一定比例压缩特征通道来进行特征蒸馏，即保留一部分特征，对另一部分特征继续进行细化。该方式提高了特征提取效率，且通过残差学习对丢失的高频信息进行补偿。本文在残差特征蒸馏模块的基础上增加EFAB，由此构建RFAM，利用注意力机制提高网络对关键特征的关注，减少多余信息的干扰。

RFAM结构如图4所示。首先采用通道分离操作将输入特征分为2个部分，一部分特征由单卷积层进行通道压缩，另一部分特征由EFAB进行特征细化。然后将所有通道压缩后的特征融合，融合后的特征再送入EFAB进行特征增强。最后通过1个1×1大小的卷积层进行特征降维，将特征通道数恢复为输入通道数。

图4 RFAM结构Fig.4 Structure of residual feature attention distillation module

EFAB由2个3×3大小的卷积层、ReLU函数及增强空间注意力（Enhanced Spatial Attention，ESA）模块构成。输入特征先经过2个卷积层和ReLU函数进行特征细化和激活，再输入ESA模块。ESA模块首先对输入特征使用1个1×1大小的卷积层进行通道数降维。其次通过stride为2的卷积（Stride Conv）、2×2大小的最大池化层（Pooling）及卷积组（Conv Groups）来扩大感受野范围，其中卷积组由7×7大小的最大池化层和stride为3的卷积层组成。然后对输出的特征进行上采样（Upsampling），并通过残差连接与降维后的输入特征相加。最后将相加的特征通过1个1×1大小的卷积层恢复到输入通道数，通过Sigmoid函数生成特征注意力权重，并与输入特征点乘，得到ESA模块的输出。该结构保证了图像中较为平滑的低频信息在网络中可有效传递，还可利用注意力机制对高频信息进行高效学习，保证网络训练效率，有利于提高图像重建质量。

2 实验结果与分析

2.1 实验设置

实验硬件环境：Intel（R） Core（TM） i9-10980XE CPU@3.00 GHz，18核36线程；64 GiB内存；NVIDIA RTX 3090显卡，24 GiB显存。软件环境：Ubuntu20.04操作系统；Pytorch1.8深度学习框架；CUDA11.4加速学习；Python3.7编程语言。

网络共迭代训练500次，初始学习率设置为0.000 1，当网络训练次数达300时，学习率减半，优化方法采用自适应矩估计（Adaptive Momentum Estimation，Adam）优化器，其参数β1=0.9，β2=0.99。损失函数采用L1损失函数。

2.2 实验数据集

在公共数据集DIV2K和煤矿井下图像数据集CMUID[1]（CMUID下载地址：https://github.com/CUMT-AIPR-Lab/CUMT-AIPR-Lab）中添加相同水平的高斯噪声作为训练集。选取Set5[21]，Set14[22]，B100[23]，Urban100[24]，CMUID[1]中煤矿带式输送机场景及工作车间场景并添加相同水平的高斯噪声，生成相应的Noise-Set5、Noise-Set14、Noise-B100、Noise-Urban100、Noise-场景1、Noise-场景2作为测试集。本文添加的高斯噪声的标准差为25 dB。

2.3 实验对比网络及评价指标

为验证本文网络对低分辨率噪声图像的重建效果，采用双三次插值[25]（Bicubic）、ESPCN[10]、EDSR[13]、残差通道注意力网络[26]（Residual Channel Attention Networks，RCAN）、深度反向投影网络[27]（Deep Back-Projection Network，DBPN）、跨尺度非局部注意网络[28]（Cross-Scale Non-Local Attention Network，CSNLN）、非局部稀疏注意力网络[29]（Non-Local Sparse Attention Network，NLSN）及边缘增强特征蒸馏网络[30]（Edge-enhanced Feature Distillation Network，EFDN）进行对比实验。

选用结构相似度（Structural Similarity，SSIM）、图像感知相似度（Learned Perceptual Image Patch Similarity，LPIPS）及峰值信噪比（Peak Signal-to-Noise Ratio，PSNR）作为评价指标，对图像超分辨率重建效果进行评估。SSIM从图像结构、对比度和亮度3个方面对图像质量进行评价，其值越大，表示图像质量越高；LPIPS反映2张图像在感知方面的相似度，符合人类的主观感知，其值越小，表示图像质量越高。PSNR通过计算2张图像对应像素点间的误差来衡量图像质量，其值越大，表示图像质量越高。

2.4 网络参数实验

为探究不同数量RFL对整体网络去噪性能的影响，对分别含有0，1，2，3，4个RFL的网络进行对比实验。含有不同数量RFL的网络在测试集Noise-Set14、Nosie-B100（图像缩放因子为4）上的SSIM和LPIPS见表1、表2。

表1 含有不同数量RFL的网络在Noise-Set14上的LPIPS和SSIMTable 1 LPIPS and SSIM of network with different numbers of residual feature fusion layer on Noise-Set14

表2 含有不同数量RFL的网络在Noise-B100上的LPIPS和SSIMTable 2 LPIPS and SSIM of network with different numbers of residual feature fusion layer on Noise-B100

从表1、表2可看出，与含有0，1，2，3个RFL的网络相比，含有4个RFL的网络在Noise-Set14测试集上的LPIPS分别减少了0.124，0.067，0.031，0.009，SSIM分别提高了0.136，0.094，0.046，0.011；在Noise-B100测试集上的LPIPS分别减少了0.107，0.073，0.038，0.007，SSIM分别提高了0.038，0.023，0.017，0.006。随着RFL数量增加，LPIPS逐渐降低，SSIM逐渐升高；含有4个RFL的网络相对于含有0，1，2，3个RFL的网络的SSIM提升幅度及LPIPS降低幅度逐渐变小，说明随着RFL数量增加，网络对于低分辨率噪声图像的重建性能逐渐达到饱和。

为防止网络性能退化及网络训练难度增加，本文选用4个RFL。

2.5 消融实验

为验证DRCDM及RFAM的效果，在U-Net基础上增加不同模块进行消融实验，在测试集Noise-Set14上的结果见表3，可看出同时添加DRCDM与RFAM后，客观评价指标最优。

表3 消融实验结果Table 3 Results of ablation experiments

2.6 网络对比实验

2.6.1 不同网络客观评价指标对比

6种测试集下不同网络重建的图像与原始高分辨率图像的客观评价指标对比见表4、表5。可看出本文网络在各测试集上相对于其他网络的LPIPS整体有所降低，SSIM均有所提高，表明本文网络对于低分辨率图像的重建效果更好。

表4 不同网络在测试集上的LPIPS对比Table 4 Comparison of LPIPS of different networks on test set

表5 不同网络在测试集上的SSIM对比Table 5 Comparison of SSIM of different networks on test set

2.6.2 不同网络主观视觉效果对比

不同网络在测试集Noise-Urban100、Noise-B100（图像缩放因子为8）上的图像超分辨率重建效果如图5、图6所示。由于在缩放因子为8的情况下，低分辨率噪声图像尺寸较小，为方便比较噪声图像重建的视觉效果，选用重建图像的部分放大图进行对比，左侧高分辨率图像中标出的红框部分即图像放大区域。从图5、图6可看出，Bicubic重建的图像依然存在高斯噪声且图像中的建筑结构较为模糊；ESPCN，CSNLN重建的图像有效去除了部分高斯噪声，但没有恢复图像的细节特征，仍存在一些重影；EDSR重建的图像出现了失真现象，在重建图像的左侧出现一团“黑影”；DBPN及RCAN重建的图像过于平滑，虽然去除了部分高斯噪声，但没有很好地重建图像的细节特征，使得图像过于平滑模糊；NLSN及EFDN重建的图像在建筑整体结构的恢复上明显优于前几种网络，细节特征恢复较好，但仍存在部分高斯噪声；本文网络重建的图像可明显看出建筑整体结构且建筑线条较为清晰，基本不存在多余高斯噪声，重建效果较为理想。

图5 不同网络在Noise-Urban100上的图像超分辨率重建效果对比Fig.5 Comparison of image super resolution reconstruction effect of different networks on Noise-Urban100

图6 不同网络在Noise-B100上的图像超分辨率重建效果对比Fig.6 Comparison of image super resolution reconstruction effect of different networks on Noise-B100

为进一步验证本文网络对矿井现场图像的重建效果，分别选取测试集Noise-场景1、Noise-场景2（图像缩放因子为4）进行超分辨率重建，效果如图7、图8所示。可看出Bicubic，ESPCN，EDSR，RCAN，NLSN，EFDN对边缘纹理细节的重建效果较差，如帽绳线条不清晰、头灯质感模糊、字迹模糊；本文网络重建后的图像帽绳线条清晰、头灯质感真实、字迹清晰，在主观视觉效果上明显优于其他网络。

图8 不同网络在Noise-场景2上的图像超分辨率重建效果对比Fig.8 Comparison of image super resolution reconstruction effect of different networks on Noise-scenario 2

2.6.3 不同网络复杂度与运行速度对比

以Noise-场景1（图像缩放因子为4）为例，不同网络的复杂度和运行速度对比结果见表6。其中网络复杂度通过参数量及浮点运算量来衡量，运行速度通过网络重建1张图像的耗时来衡量。可看出在保证最优SSIM的前提下，本文网络在复杂度及运行速度上有着较好的均衡。

表6 不同网络的复杂度和运行速度对比Table 6 Comparison of complexity and running speed of different networks

3 结论

1）提出了密集残差连接U型网络，用于噪声图像超分辨率重建。在特征提取路径中引入DRCDM，利用残差学习的特点对低分辨率噪声图像进行有效去噪；在重建路径中，通过RFAM中的EFAB对不同空间的特征赋予不同的权重，加强网络对于图像关键特征的提取能力。

2）实验结果表明，该网络在客观评价指标及主观视觉效果上总体优于对比网络，利用该网络重建的图像基本消除了原有图像噪声，有效恢复了图像细节特征。

3）虽然该网络实现了对低分辨率噪声图像去噪与重建的双重目的，但仍存在部分细节特征模糊的现象。在未来的工作中，将对网络中的卷积层与注意力机制进行改进，引导网络学习更准确的细节特征，进一步提高重建图像质量。