改进多尺度U 型网络的红外图像去模糊方法

2024-01-10 17:05张艳珠刘义杰
沈阳理工大学学报 2024年1期
关键词:尺度红外损失

张艳珠,赵 赫,刘义杰

(沈阳理工大学自动化与电气工程学院,沈阳 110159)

近年来,红外成像技术凭借其抗干扰能力强、可实现夜视成像等优点,被广泛用于安防监控等领域[1-2]。 由于拍摄期间设备的抖动或目标的快速移动会使图像存在模糊的伪影,导致后续的识别工作难度增大,从模糊图像中恢复出清晰图像是图像处理技术研究的重要内容。

图像去模糊方法大致可分为基于优化的去模糊方法和基于深度学习的去模糊方法。 基于优化的方法将去模糊任务转变为逆滤波问题,如郝建坤等[3]在模糊核已知情况下,采用去卷积方法恢复了清晰图像,华夏等[4]在模糊核未知情况下,提出基于正则化的去模糊方法,仅通过模糊图像得到模糊核与清晰图像。 基于优化的方法能够利用图像的先验信息较好地实现去模糊,但其只针对特定场景,在其他场景中表现不佳且处理十分耗时。 基于深度学习的去模糊方法发展迅速,现已涌现出多种算法[5-6]。 Kupyn 等[7]提出一种基于生成式对抗网络(GAN)的去模糊方法,并在其基础上进行了改进[8],该方法能够较好地恢复图像的纹理细节,但稳定性不佳,模型训练过程中会出现参数震荡不收敛的情况。 Wang 等[9]和Zamir等[10]均提出了基于Transformer 的架构用于图像去模糊,受益于其多头自注意力机制,去模糊效果良好,但计算成本很高。 Tao 等[11]提出了一种共享参数的多尺度网络,能够有效处理各种类型的模糊,但处理速度较慢。 基于深度学习的方法能够学习模糊图像和清晰图像之间的非线性映射,适合处理复杂的模糊图像,在可见光图像处理上显示了优异的性能。 相较于可见光图像,红外图像纹理细节更粗,基于深度学习的去模糊方法对红外图像的细节信息恢复较差,应用效果不佳。

本文在多尺度U 型网络(MIMO-UNet)[12]的基础上提出一种适用于红外图像的单幅图像去模糊方法。 在编码模块中引入对偶注意力单元(dual attention unit,DAU)[13],使其在提取特征时抑制作用较弱的特征,并允许携带更多信息的特征继续传递;在特征融合模块中引入快速傅里叶变换(fast fourier transform,FFT),优化模块融合的多尺度特征信息;选择更优的激活函数和损失函数替换原网络使用的函数,实现更好的信息流动并提高模型泛化能力[14]。

1 多尺度U 型网络及其改进

1.1 多尺度U 型网络

MIMO-UNet 主要由编码模块( encoder block,EB)、解码模块(decoder block,DB)、浅层卷积模块(shallow convolutional module,SCM)和非对称特征融合模块(asymmetric feature fusion,AFF)组成,其结构如图1 所示。

图1 多尺度U 型网络结构Fig.1 Multi-scale U-shaped network structure

编码模块将输入的多尺度图像信息进行特征提取,以捕获数据的关键特征;解码模块将特征信息转换回原始数据空间,以恢复多尺度清晰图像;浅层卷积模块将其他尺度的图像编码以便输入到网络;非对称特征融合模块合并跨编码器和解码器的多尺度信息流,以融合有较大感受野的深层特征和有丰富细节信息的浅层特征。

1.2 网络改进

正确学习清晰图像和模糊图像的差异能够有效提升网络的性能,两者之间最主要的差异是前者含有更多的细节信息即高频信息,后者含有更多的内容信息即低频信息。 相较于可见光图像,红外图像纹理细节更粗、视觉效果更模糊,影响了网络对其高频信息的学习,虽然通过堆叠网络模块可以在一定程度上缓解该问题,但会增加计算复杂度。 为此,在网络模块中引入DAU 和FFT,通过在空间域和频域上各单词首字母小写对优化的特征进行学习,提升网络的去模糊效果。 本文改进网络的具体结构如图2 所示。 图中:Conv 表示卷积层;Dec 表示逆卷积层;RB 表示残差模块;AFFTFF 表示非对称快速傅里叶变换特征融合模块;Ⓒ表示拼接操作;⊕表示逐元素求和。

图2 改进网络的结构Fig.2 Improved network structure

1.2.1 对偶注意力编码模块

DAU 能够在空间和通道两个维度上实现与特征张量进行信息共享,其结构如图3 所示。 图中:GAP 表示全局平均池化层;MAP 表示最大平均池化层;SA 表示空间注意力;CA 表示通道注意力;ReLU 为激活函数;表示Sigmoid 激活函数。

图3 对偶注意力单元结构Fig.3 Dual attention unit structure

DAU 主要由空间注意力(SA)和通道注意力(CA)两部分组成。 SA 旨在利用特征图的空间依赖性生成空间注意力图,并用其重新校准输入的特征,自动捕获重要区域的特征。 CA 则通过压缩和激励两个操作实现利用特征图通道间的关系:通过对全局空间信息进行压缩,在通道维度上进行特征学习,得到各个通道的重要性;通过激励对各个通道分配不同的权重。 因此,DAU 可以抑制作用较弱的特征,允许带有更多信息的特征继续传递,引入DAU 的编码模块可以更好地实现特征的学习和提取。

1.2.2 非对称快速傅里叶变换特征融合模块

较粗的纹理细节会影响卷积对特征的学习,将图像从空间域转换到处理较为容易的频率域能够在一定程度上解决该问题。 FFT 能够将图像在空间域的细节信息和内容信息转成频率域的高频信息和低频信息,将FFT 嵌入到特征融合模块中,可实现对图像高低频信息的学习。 此外,输入的特征融合了多尺度图像编码后的特征,能够覆盖整个图像,更加轻松地捕捉模糊和清晰图像之间的差异,使得去模糊效果得到进一步提升。 改进后的非对称快速傅里叶变换特征融合模块(AFFTFF)结构如图4 所示。 图中:Resize 表示缩放操作,用于调整特征图尺寸以便进行拼接;Inv FFT表示快速傅里叶逆变换。

图4 AFFTFF 结构Fig.4 AFFTFF structure

1.2.3 激活函数和损失函数

MIMO-UNet 的激活函数采用ReLU 函数,ReLU 函数计算速度较快,但当函数值为0 或为负值时,会出现参数不再更新的情况,导致模型的性能降低。 Mish 激活函数能够弥补ReLU 的不足。ReLU 和Mish 激活函数的形式如式(1)和式(2)所示,两者对比如图5 所示。

图5 激活函数对比图Fig.5 The comparison diagram of activation functio

Mish 函数为平滑函数,能够避免ReLU 函数的奇异点,其正值无边界避免了梯度饱和的情况,其负值较小能稳定网络的梯度流,使信息能够更好地在网络中流动。 故本文使用Mish 作为激活函数。

MIMO-UNet 的损失函数采用平均绝对误差(MAE)损失,又称L1 损失。 该损失函数不会出现梯度爆炸问题,但其在x=0处不可导,且其不论损失值大小均具有相同梯度,可能会造成模型震荡不收敛,平滑的绝对误差损失Smooth L1 则能解决该问题。 MAE 损失(用LMAE表示)和Smooth L1 损失(用LSmoothL1表示)计算公式如式(3)和式(4)所示,两者对比如图6 所示。

图6 损失函数对比图Fig.6 The comparison diagram of loss function

式中:n为像素总数量;为估计值;yi为真实值。

Smooth L1 为分段函数,当误差较大时,其梯度较大,但不会导致梯度爆炸问题;当误差较小时,其梯度足够小,更利于模型的收敛。 因此,本文使用Smooth L1 作为损失函数。

2 实验与结果分析

2.1 数据集处理

网络进行迭代训练需要使用成对的清晰-模糊图像,本文采用红外热像仪采集图像数据,并使用公开的红外图像数据集FLIR 进行数据补充。由于同时获取清晰和模糊的图像较为困难,故将清晰图像进行模糊处理得到对应的模糊图像,如图7 所示。 产生模糊的主要原因有相机运动、物体运动以及相机和物体同时运动,使用Kupyn等[7]提出的随机轨迹法模拟相机运动(图7 第一行)、使用多帧平均法模拟物体运动(图7 第二行)、使用运动退化模型模拟相机和物体同时运动(图7 第三行),图7 中从左到右分别对应清晰图像、轻度模糊图像和重度模糊图像。

图7 模拟模糊效果图Fig.7 The effect diagram of simulation blur

从3 000 张红外图像中随机选择图像,并随机选择模糊方式和模糊程度,得到3 000 组成对的清晰-模糊图像对,按8∶1∶1 的比例分为训练集、验证集和测试集,图像的分辨率为640 ×480。

2.2 实验配置

具体实验配置如表1 所示。

表1 实验配置Table 1 Experimental configuration

2.3 主观评价

为验证本文算法的有效性,使用MIMO-UNet和本文改进后的网络进行对比实验,测试结果如图8 所示。

图8 测试结果图Fig.8 The diagram of test results

图8(a)和图8(b)分别为用于测试网络性能的清晰图像和模糊图像;图8(c)和图8(d)分别为MIMO-UNet 原网络和本文改进网络的测试结果,其中第一行为去模糊效果图,第二行为重建图像与清晰图像对比的残差图。 由图8 可以看出:MIMO-UNet 能够在一定程度上实现去模糊;本文改进的网络则能更好地恢复出图像的细节信息,如框中的黑色“書”字和背景以及框中的白色文字;改进网络的残差图包含的信息更少,其重建图像更加接近于清晰图像。 因此,本文提出的改进网络能够有效实现红外图像去模糊。

2.4 客观评价

2.4.1 消融实验

为验证本文改进结构对网络性能的影响,在原网络基础上逐一加入改进的模块及函数,在相同数据集上对网络进行训练和测试,使用峰值信噪比(PSNR)和结构相似性(SSIM)两个常用的图像质量评估指标验证网络的去模糊性能,实验结果如表2 所示。

表2 改进网络结构的性能评估Table 2 Improved network structure performance evaluation

由表2 可以看出:加入DAU 或加入FFT 均能较大幅度地提升网络性能,采用更优的激活函数和损失函数能够在一定程度上提升网络性能;相较于原网络,本文改进网络的PSNR 提升了0.53 dB,由于红外图像本身视觉效果模糊,SSIM提升较少,仅为0.02。 本文采用的改进模块及函数均有助于提升网络对红外图像的去模糊效果。

2.4.2 对比实验

在主观评价的基础上,采用PSNR、SSIM、网络参数量和运算时间4 个指标对MIMO-UNet、MIMO-UNet+和本文改进网络的性能进行比较分析。 实验结果如表3 所示。

表3 不同网络的性能评估Table 3 Performance evaluation of different networks

由表3 可以看出:MIMO-UNet 对于红外图像去模糊有一定的效果;MIMO-UNet +通过进一步增加网络中的模块数量可提升去模糊效果,但也大大增加了计算量,使得运算时间成倍增加;本文改进后的网络在参数量少量增加、处理时间基本不变的情况下,更好地实现了红外图像去模糊。

3 结论

为更好地实现红外图像去模糊,本文基于MIMO-UNet 进行改进,在编码模块中引入了DAU,增强网络特征提取能力,在非对称特征融合模块中引入了FFT,加强网络对于清晰图像和模糊图像之间差异的学习,同时优化了损失函数和激活函数。 在采集的红外数据上进行训练和测试,消融实验结果表明,本文采用的改进模块及函数均有助于提升网络性能;对比实验结果表明,相较于原网络,本文改进网络重建图像的细节更加清晰,PSNR 提升了0.53 dB,SSIM 提升了0.02。本文算法为红外图像去模糊任务提供了一种良好的解决方案。

猜你喜欢
尺度红外损失
网红外卖
胖胖损失了多少元
闪亮的中国红外『芯』
财产的五大尺度和五重应对
TS系列红外传感器在嵌入式控制系统中的应用
玉米抽穗前倒伏怎么办?怎么减少损失?
基于快速递推模糊2-划分熵图割的红外图像分割
宇宙的尺度
一般自由碰撞的最大动能损失
损失