基于特征保真网络的图像超分辨研究

2024-01-03 12:06李羽馨张选德
陕西科技大学学报 2024年1期
关键词:保真底层分支

李羽馨, 张选德

(陕西科技大学 电子信息与人工智能学院, 陕西 西安 710021)

0 引言

图像超分辨(Super Resolution,SR)是近年来计算机视觉领域研究的热点问题之一,其目标在于从低分辨率(Low Resolution,LR)图像出发恢复出相应的高分辨率(High Resolution,HR)图像.SR是典型的图像恢复问题.从退化过程的角度考察,一幅高分辨率图像退化为低分辨率图像的时候,损失了大量信息.这使得SR属于不完全信息条件下的重构问题,即病态问题.目前关于SR研究可大体分为两类:一类是单帧图像超分辨(Single Image Super Resolution,SISR)[1],另一类是多帧图像超分辨(Multiple Image Super Resolution,MISR).本文讨论SISR,以下统称为SR.由于成像条件和网络条件的限制,用户通常只能接收到低分辨率图像.但目前硬件终端(智能手机、数字电视等)的分辨率越来越高,这就要求对接收到的低分辨率图像进行超分辨处理以适配显示终端的分辨率.因此,SR研究具有重要的应用价值.

近年来,深度学习越来越多的用于图像超分辨任务.如Dong等[2]提出的SRCNN首次将卷积神经网络(Convolutional Neural Network,CNN)引入SR领域,实现了远超传统方法的效果;Dai等[3]提出一个高效的二阶通道注意力网络SAN进一步提升SR任务的性能.这些方法均基于像素损失来约束网络的训练,网络输出相当于对多个可能的SR结果作统计平均.重建的图像虽然能获得较高的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR),但也会趋向于平滑,尤其对于纹理区域.为了恢复出逼真的纹理图像,一些方法引入生成对抗网络(Generative Adversarial Network,GAN),如SFTGAN[4]和ESRGAN[5].基于GAN的方法能够恢复出清晰的边缘和逼真的纹理,但结果存在几何畸变的情形.图1呈现了以上两类方法的处理结果.从中可见,SAN能很好的保持原图的几何结构,但会模糊图像的边缘;SFTGAN和ESRGAN能恢复出较清晰的边缘,但存在一定的几何畸变.

图1 不同方法的SR结果

图像边缘的模糊和几何畸变均属于底层特征失真问题.为了缓解这一问题,本文设计了特征保真的图像超分辨网络.具体如下:(1)该网络包含SR分支和特征保真分支.其中SR分支在图像域进行操作,而特征保真分支在特征域进行操作.特征保真分支有两个任务:一是重建图像的底层特征;二是将重建的特征集成到SR分支进而指导图像域的SR重建;(2)两个分支通过局部特征感知组进行数据交互.局部特征感知组的主要组成是特征感知模块,该模块使用通道调制系数有效的融合两个分支间的图像特征;(3)联合训练双分支网络.通过对重建过程的约束,一定程度上可以缓解图像几何畸变的问题.

1 相关工作

在此简要回顾基于像素损失的方法与基于GAN的方法,与本文的方法相关性较强.

SRCNN[2]采用了三层卷积神经网络有效提升了SR任务的性能,并对应传统的稀疏表示的原理解释了网络结构,实现了从传统SR方法到基于深度学习的SR方法的过渡.Kim等结合残差网络提出了更深的SR网络VDSR[6],得到了更好的SR结果.上述两种方法均采用预上采样框架重建,这不仅会增大网络内部的计算量,且不利于感受野的有效扩充.为此,Dong等[7]对SRCNN进行改进,提出FSRCNN,此方法在网络末端嵌入上采样模块,称为后上采样框架.后上采样框架减少了计算量,扩充了感受野,提升了SR网络的精度.此后的很多方法[8-10]都采用此框架.近年来,一些工作将注意力机制嵌入到CNN中,以提高各种任务的性能,如Hu等[11]提出了SENet,利用通道相关性提升图像分类任务的准确度.RCAN[12]首先结合通道注意力模块构建图像超分辨网络,效果显著.考虑到高阶特征信息更具判别性,SAN[3]提出一个高效的二阶通道注意力模块,进一步提高SR任务的性能.

为达到较高的PSNR值,大多数方法使用MSE损失或L1损失作为损失函数,然而这些方法通常会导致生成过度平滑的模糊图像,难以恢复出逼真的纹理.因此,Johnson等[13]提出感知损失来提高图像的视觉质量,有效减少了人工伪影的干扰.在GAN网络提出后,Ledig等[14]引入对抗性损失构建了SRGAN,成为第一个能够生成逼真的HR图像的方法.尽管这些基于GAN的方法确实提高了超分辨率图像的整体视觉质量,但有时会在恢复细节时产生不自然的假象,比如几何扭曲.因此,Ma等[15]提出SPSR通过梯度图指导重建过程,并结合GAN网络一起训练,既保持了图像的结构,又能提升图像的视觉效果.

2 基于特征保真网络的图像超分辨

本部分将首先介绍模型的整体框架,然后给出SR分支的基本组成,接着重点阐述特征保真分支的设计及两个分支的交互,最后讨论损失函数.

2.1 整体框架简介

为捕捉到更具判别性的图像特征,生成精细的几何结构,本研究构架了双支路的网络结构,如图2所示.第一条是SR分支(Super Resolution Branch,SR Branch),旨在重建出与基准图像高度相似的SR图像.该分支由非局部模块(Non Local Module,NLM)和局部残差注意力组(Local Source Residual Attention Group,LSRAG)构成;第二条是特征保真分支(Feature Fidelity Branch,FF Branch),目的是恢复出高分辨率图像的底层特征,为SR分支提供约束.该分支由局部特征感知组(Local Feature Aware Group,LFAG)构成.两个支路的细节将在2.2节中介绍.

图2 网络的整体框架

这两个分支间通过特征交互彼此依赖,每个支路都会得益于另一支路的特征信息辅助.实验证明,这种分而治之却又不独立闭塞的设计,一定程度上提升了网络的性能.双支路交互将在2.2.2节中介绍.

2.2 网络结构细节

2.2.1 SR分支的设计

如图2所示,SR分支由两部分构成.第一部分可以是任何常规的超分辨网络,本文选用SAN[3]中的基础构建块组成;第二部分则通过一个融合模块集成来自特征保真分支的特征信息.融合模块将在2.2.2节中介绍.

首先应用一个3×3的卷积层从LR输入ILR中提取浅层特征FS0:

FS0=HS(ILR)

(1)

式(1)中:Hs(·)代表图像域的浅层卷积操作.接着,提取输入的深层特征:

FDF=HNLRG(FS0)=HNLM,2(HLSRAG,G(…(HLSRAG,1(HNLM,1(FS0)))…))

(2)

式(2)中:HNLRG(·)表示SR分支的深度特征提取操作.上式中HLSRAG,1表示第一个LSRAG模块的操作,其输入是第一个NLM的输出HNLM,1(FS0),共经过16组LSRAG输出的特征作为第二个NLM的输入.

非局部模块充分利用LR特征中的纹理细节和HR特征中的自相似性,每组LSRAG则由8个残差块和1个二阶通道注意力堆叠构成,如图3所示.该模块考虑特征的二阶统计量重新缩放各通道的特征,对特征通道间的相互依赖性进行建模,增强网络的判别学习能力.

图3 LSRAG的结构图

2.2.2 特征保真分支的设计

这一节将阐述本文所提出的特征保真分支的设计,内容包括用于特征集成的LFAG,和双分支间的特征交互.

对于特征保真分支,首先通过Sobel边缘检测算子得到LR图像的特征图IGLR,作为该分支的输入.同样地,应用一个卷积层提取IGLR的浅层特征FG0:

IGLR=M(ILR)

(3)

FG0=HG(IGLR)

(4)

式(3)中:M(·)表示提取LR图像底层特征图的操作;式(4)中:HG(·)表示特征保真分支的浅层卷积操作.得到的浅层特征将会送入4组LFAG中提取深层特征FDGF,每组LFAG都有两个输入:上一级LFAG的输出与来自SR分支中每4组LSRAG的输出,这些特征是重建高分辨率底层特征图的关键.由于底层特征图的大部分区域都接近于零,卷积神经网络可以更专注于轮廓的空间关系,因此更容易捕获图像的结构.

FDGF=(HLFAG,M(…(HLFAG,1(FG0+FDF,1))…))

(5)

式(5)中:HLFAG,1(·)为第一个LFAG的函数表示.FG,0和FDF,1分别为特征保真分支的浅层特征和SR分支中LSRAG的输出,共同作为第一个LFAG的输入.LFAG不仅是特征保真分支的主要构建块,同时作为融合模块将高保真的特征信息集成到SR分支,结构如图4所示.具体的,由5个特征感知块(Feature Aware Block,FAB)与1个卷积层组成.

图4 LFAG的结构图

下面介绍FAB的结构.如图5所示,每个FAB都通过两组特征感知层(Feature Aware Layer,FA Layer)来适应特征,在特征融合的过程中,每一层的特征都能够被充分的感知.具体的,先将来自SR分支的特征传递到两个卷积层和一个非线性层,接着通过一个全局池化操作和一个sigmoid激活层,产生通道级调制系数.然后用该系数对支路中不同通道特征进行缩放,将输出馈送到后续各层.又基于残差网络的优点,FAB中也设计了一条局部短连接,将起始特征连接到较深的网络结构中,避免重建过程中的浅层特征遗漏问题,更利于网络的优化.不同于SPSR中简单的将特征串联,第3.2.1节证实,本文的FAB可以更好地避免双分支之间的域差异,在不损失有用特征信息的前提下辅助本分支的图像重建任务.

图5 FAB的结构图

SR分支与特征保真分支间有多层级的特征交互,具体操作为:在网络的前半部分,由SR分支指导图像底层特征的重建,这种设计不仅可以减少参数量[16],也可为特征域重建高分辨率底层特征图提供丰富的纹理信息.在重建出高质量的底层特征图后,将得到的高保真特征集成到SR分支中,进而指导图像域的SR图像重建.在两个分支的主干网络上均存在一条全局跳跃连接,补充在深度网络重建过程中遗漏的底层特征.最终SR分支能够携带丰富的特征信息,确保SR图像的真实性.

在网络的末端嵌入上采样模块的方法可以很好地权衡计算量和性能之间的关系.因此各个分支最后通过一个卷积层分别将放大后的特征映射到相应的高分辨率图像中:

ISR=HSR(FDF+FS0+HF(FDGF+FG0))=HSRB(ILR)

(6)

IGSR=HGSR(FDGF+FG0)=HGB(IGLR)

(7)

式(6)、(7)中:HSR(·)和HGSR(·)分别表示两个分支的重建操作,HF(·)是将高保真的特征信息集成到SR分支的操作.HSRB(·)和HGB(·)则分别代表SR分支和特征保真分支的整体功能.

对于SR任务来说,双分支的结构设计使得网络的稳定度更高,并能及时补充重建过程中可能遗失的图像特征;结合高分辨率底层特征图,有益于恢复出难度较高的图像轮廓和边缘特征;将不同特征直接串联,这样的做法容易忽略不同域图像特征间的差异性[17],本文将通道调制系数用于SR任务,通过学习特征表示对通道特征进行加权,从而提升重要权重,抑制不重要权重,可以很好地利用不同分支的特征信息来适应特定的重建任务.第3.2节验证了FFSR受益于特征保真分支的设计,能够有效提升性能.

2.3 损失函数

目前,大多数SR方法通过像素级损失来优化网络,常见的像素损失有L1损失和L2损失,两者相较之下,L1损失鲁棒性更强,并且能够恢复出视觉效果更好的图像.因此,本文选用L1损失作为像素损失:

(8)

(9)

(10)

(11)

(12)

(13)

(14)

(15)

式(15)中:φi(·)表示VGG模型的第i层输出.受到SPSR[15]的启发,本文选择使用像素损失,感知损失,生成对抗损失联合训练的方式,并在特征保真分支的加持下,旨在重建出纹理精细,结构清晰的高分辨率图像.联合训练的损失函数定义为:

(16)

式(16)中:α1和β1取0.05,α2和β2取0.01,α3取1,γ取0.25.

3 数值实验

3.1 实验设置

本文选用含有800张高分辨率图像的DIV2K数据集作为训练集,并在4个具有不同特点的数据集上进行测试,分别为Set5,Set14,BSD100,General100.利用PSNR指标,结构相似度(Structure Similarity Index Measure,SSIM)指标与学习的感知图像块相似度(Learned Perceptual Image Patch Similarity,LPIPS)指标[18]对所有的SR结果进行评价.PSNR和SSIM是数值越大越好,LPIPS则是数值越小越好.

训练期间,首先在DIV2K的800个LR-HR图像对中随机裁剪8张对应的LR图像块与HR图像块,其中LR图像块大小为48×48,对其增加随机旋转和水平翻转操作后作为一批的输入送入网络,更新网络的参数.训练策略分为三步,首先用像素损失优化网络参数,即先训练2倍缩放因子的模型,这一步裁剪的HR图像块大小为96×96.接着,以损失收敛后的2倍的模型为预训练模型训练4倍缩放因子的模型,直至4倍的模型收敛,即裁剪的HR图像块大小为192×192.这是为了优先确定图像语义信息的准确性.最后结合像素损失,感知损失,生成对抗损失三种优化方式对模型参数进行微调,实现生成优质视觉质量图像的目标.

实验中选用ADAM优化器,共设置1 000个epochs,设置初始学习率为1×10-4,每200个epochs学习率衰减为原来的一半.每2 000次迭代在Set5数据集上测试一次,可以直观地观察当前的训练结果.本文实验在GeForce RTX3090 Ti GPUs下运行,在PyTorch框架下实现.

3.2 消融实验

本部分将对所提出的改进之处设计消融实验,来验证所提出模块的正确性和有效性.消融实验分为两部分:第一部分是特征保真分支的设计;第二部分是对SR分支通道注意力机制的选择.

3.2.1 特征保真分支的设计

(1)特征保真分支的有效性.由于SR分支中二阶通道注意力忽略了一阶的边缘特征[3].因此本文在原网络增加了一条特征保真分支,补充重建过程中遗漏的特征.为证明图像底层信息的有效性,与相应的SAN网络进行对比实验,也就是只留下SR重建分支的FFSR.实验结果如表1,增加了特征保真分支后PSNR增幅明显,首先验证该分支提供的图像底层特征对PSNR指标的提升十分有效,但不进行双分支交互会导致LPIPS指标恶化.

表1 消融实验各评价指标结果(Set5×4)

(2)图像域差距的影响.为能够充分利用图像底层特征,采用直接串联通道的方式进行双分支特征交互,即为表1中的Model2.但不同分支特征的直接串联,导致PSNR和LPIPS指标均有所降低.说明直接串联的方式会加大图像域和特征域之间的域差距,引入一些不利于图像恢复的冗余信息,损害原本网络的稳定性.

(3)通道调制系数的有效性.为消除双分支间特征信息的差异性,受到通道注意力机制的启发,将额外引入的特征图转换为通道系数,调整当前分支特征通道的权重.通过这样的做法,使得多层级的特征充分交互,一定程度上减轻了域差异带来的影响.如表1中的实验结果所示,不仅PSNR的值有明显增加,LPIPS指标的提升验证该策略对重建图像视觉效果也有很大帮助.这说明通过通道调制系数的缓冲,得到的特征更加符合图像重建任务.

3.2.2 SR分支通道注意力机制的选取

与一阶通道注意力模块不同,二阶通道注意力模块用到了协方差全局归一化,更关注于特征的高阶统计量.设置其他参数模块相同,表2所示结果证明,二阶通道注意力模块具有更好的性能.作为主要承担图像重建任务的分支,SR分支应更关注于图像复杂纹理,同时说明由二阶通道注意力模块得到的高阶信息对图像超分辨任务表现更为出色.

表2 不同通道注意力模块性能对比(Set5 ×4)

3.3 结果分析

将本文网络与先进的面向感知的方法定量定性的进行比较,包含SFTGAN[4],SRGAN[14],ESRGAN[5],EnhanceNet[19],SPSR[15],USRGAN[20]和BebyGAN[21].定量比较结果在表3给出,图6是几种方法的视觉效果对比.

表3 与先进的感知驱动的SR方法比较结果(×4)

图6 与先进的感知驱动的SR方法视觉比较结果(×4)

(1)定量对比.本文与先进的基于感知的方法进行比较.从表3中可以看到,本文FFSR的参数量较小.且在三个指标上的表现并不逊色,其中SSIM指标优于所有的对比方法;PSNR指标在Set5,BSD100两个数据集上达到最优,在Set14数据集上达到次优的结果.这说明本文提出的方法促进了PSNR和SSIM两个指标的提升,生成的图像质量大大提高.同时LPIPS指标在Set14数据集上达到最优,在另外3个数据集上实现次优的结果.这说明本文的方法在视觉感知与平滑度之间取得了较好的平衡.表3的结果表明相较于其他基于感知的方法,本文的FFSR以较小的参数量取得较优越的性能,在图6视觉对比的结果中表现更为突出.

(2)定性对比.图6展示了FFSR与基于感知的方法在视觉效果上的对比.由第1组对比图,FFSR能较准确的恢复线条,生成的细节与HR图像更为贴切,BebyGAN恢复出的图像出现较多伪影,SPSR恢复出的图像颗粒感较重并不清晰.ESRGAN和USRGAN这两种方法将原图中的竖线畸变为斜线,SFTGAN和SRGAN恢复出的图像则较为模糊.观察第二组对比图,只有FFSR恢复出了睫毛细节,结果较好的BebyGAN和SPSR恢复的图像则过于平滑,虽然面部较平整,但未能重现HR图像中的一些细节,其余几种方法的重建结果均出现了不同程度的失真.对比第三,四组图像,SRGAN会产生过平滑的图像,而另几种对比方法的重建结果均存在一些杂乱,不被期望的失真.相较之下,FFSR恢复的图像与HR图像更为相似,这也再次印证FFSR在平滑度和纹理细节之间获得了较好的平衡.因此证实,本文所提的FFSR能够较准确的恢复出图像的结构信息,重建出视觉质量较高的图像.

4 结论

本文提出一种基于特征保真网络的图像超分辨算法,该算法较充分的运用到了图像的底层信息,较显著的提升了网络的性能.具体的,设计了一条特征保真分支为重建过程提供约束;提出局部特征感知块作为特征保真分支的基本构建块,多层次的充分交互双分支间的信息;另外,为消除两分支间的域距离差异,将特征图转换为通道调制系数实现信息的有效传递.相比其他主流的基于感知驱动的方法,最终以较小的参数量取得了较显著的性能提升,实现了平滑度和纹理细节间的平衡.另外本文的特征保真网络灵活度高,适用性广,可以作为独立的模块与相关超分辨网络相结合,应用前景较广泛.

猜你喜欢
保真底层分支
航天企业提升采购能力的底层逻辑
巧分支与枝
笔墨横姿自生风
进村扶贫献爱心 贫困牧民度暖冬
一类拟齐次多项式中心的极限环分支
基于反射波各向异性特征的保真去噪方法
保真实录
回到现实底层与悲悯情怀
中国底层电影研究探略
生成分支q-矩阵的零流出性