基于改进StyleGAN路面缺陷数据增强算法

2023-12-28 10:11刘欢孙海明朱焕馨
湖北汽车工业学院学报 2023年4期
关键词:注意力损失路面

刘欢,孙海明,2,朱焕馨

(1.湖北汽车工业学院 机械工程学院,湖北 十堰 442002;2.湖北中程科技产业技术研究院有限公司,湖北 十堰 442002)

道路表面裂缝、龟裂和坑洞是常见的缺陷形 式,需要定期检测和评估。基于深度学习的路面缺陷检测技术具有全面、高效和准确等优点,逐渐成为现代化路面检测评估手段之一。而使用深度学习目标检测模型训练过程中,路面缺陷数据样本少、图像质量不高的情况严重影响目标检测精度。通常情况下,研究人员使用图像数据增强技术来解决此类问题。生成式对抗网络[1-2](generative adversarial network,GAN)在图像生成领域有着卓越的表现。目前,许多学者在路面缺陷数据集增强领域有一定的研究。裴莉莉[3]等提出了基于深度卷积生成式对抗网络(DCGAN)的沥青路面裂缝图像生成方法;李良福等[4]利用GAN 进行图像超分辨率重建,缓解了裂缝分割时过拟合问题,并提升了桥梁裂缝分割精度;侯越[5]等针对路面病害人工检测耗时问题和病害检测精度问题,提出了数据深度增强方法。阙云等[6]为解决路面裂缝图像采集数量无法满足深度学习样本数量要求的问题,提出了基于生成式对抗网络的数据扩增方法,并以改进型U-Net网络模型为基础,提出了路面裂缝语义分割算法。然而,面对路面缺陷形态各异、场景复杂的环境等因素,前人研究基于深度学习的路面缺陷数据增强方法仍存在样本数据少和图像生成质量偏低的问题。为进一步提升数据增强方法的质量和效果,提出了基于改进StyleGAN 路面缺陷数据增强算法,通过训练生成式对抗网络模型,得到高质量的路面缺陷图像。

1 改进的样式生成对抗网络

改进StyleGAN 模型在原有StyleGAN[7-14]模型生成器基础上添加了自注意力机制和SLE 尺度标签编码器,增加了随机噪声的输入量,修改了损失函数并调整了输出图像分辨率,如图1所示。

图1 改进StyleGAN生成器结构

自注意力机制[15]是能够帮助生成器更好地关注图像细节和结构的方法,可以提高生成图像的质量。在生成任务中,传统的卷积操作可能难以从全局角度捕捉图像内容,导致信息丢失。通过引入自注意力机制,模型可以更有效地区分空间与区域的关系,并学习到图像中更多的细节信息,原理如图2 所示。首先从神经网络的隐藏层中提取1 个特征图x,特征图具有C个通道和N个空间位置。使用3个矩阵Wf、Wg和Wh将x变换到3个不同的特征空间f、g和h中,即

图2 自注意力机制

Wf、Wg和Wh的维度均为R(C/8)C。其次对Wf变换得到的特征图进行转置,并与Wg变换得到的特征图进行点积运算。通过对点积结果进行softmax 归一化,得到注意力特征图βj,i。

在得到注意力特征图βj,i后,将它与Wh变换得到的特征图v进行点积,得到自注意力特征图o。

式中:oj为在特征空间中与位置j相关的自注意力特征。最终输出为

式中:γ为比例系数,是尺度参数,用于调节自注意力特征对于最终输出的影响程度。

SLE 标签编码器[16]是用于提高图像生成质量的生成器增强方法,如图1a所示。SLE标签编码器对输入的二进制向量进行编码,输出相应的标签信息ti,并与映射网络输出w一起作为生成网络的输入,从而生成器能够更好地利用标签信息调节生成图像的纹理细节生成符合要求的图像。

WGAN-GP 损失函数[17]使生成器和判别器的梯度范数被限制在合理范围,以解决StyleGAN 损失函数中出现的梯度消失和梯度爆炸问题,从而提高GAN 模型的稳定性和训练效率。WGAN-GP 损失函数如式(5)所示:

式中:Pdata为真实分布;PG为模拟分布;Ppenalty为Pdata和PG采样点之间的直线均匀采样。

为了使路面缺陷图像具有丰富的多样性,增加随机噪声输入量,见图1c~d。以原有的StyleGAN模型为基础,在每个尺度模块增加2 个噪声输入。增加噪声输入可以帮助生成器更好地探索潜在空间,从而生成更多样化的图像。针对数据集特点,对生成器尺度模块进行修改,最后1个模块分辨率大小调整到256×256,见图1c。在减小对图像生成质量影响的同时,最大程度减少了模型训练时间。

2 数据集、实验环境及评估指标

2.1 预处理

实验使用MERCURY2工业相机收集路面缺陷数据样本,将相机分辨率设置为2048×2048,选取不同气候条件、时间段、路段和路面类型,以增加数据集多样性,使用Lambleing 软件制作VOC 格式的标签文件数据集,其组成如表1所示,包含裂缝、龟裂和坑洞3种缺陷类型,如图3所示。

表1 数据集对比

图3 路面缺陷类型及标签

2.2 实验环境

为了验证模型的性能,搭建相应的实验平台,包括硬件和软件。硬件平台是深度学习工作站,具备较强的运算能力,内存128G,GPU 为NVIDIARTX3090-24G;软件平台为windows10-64 位操作系统,pytorch1.8.1 深度学习框架,集成开发环境为PyCharm2022,编程语言为python3.8,运算平台为CUDA11.3。

2.3 评估指标

采用评估指标IS(inception score)和FID(frechet inception distance)对生成图像进行评估。IS从图像生成质量和多样性方面客观地进行评估,利用预先训练好的Inception 模型来计算边缘分布和条件分布之间的KL(Kullback-Leibler)散度。

式中:x~Pg为生成图像;DKL为KL 散度。IS 得分越高,即KL 值越高,说明生成图像的质量越高,多样性越丰富。FID评估指标用来描述2个数据集之间的相似性程度。首先采用预训练好的Inception 模型对图片中的特征进行编码,然后计算原始图像数据分布与生成图像分布之间的Frechet距离。

式中:r为真实图像;g为生成图像;μr、μg为各自特征向量的均值;∑r、∑g为特征向量的协方差矩阵;tr为矩阵的迹。FID值越低,2个图像分布越接近,图像越相似,生成图像的质量越高[9]。

采用平均精度均值和召回率作为目标检测实验评估指标。计算公式为

式中:mAP 为目标检测模型在所有类别上的平均精度;R为模型能够正确检测到实际存在缺陷的比例;TP为被正确检测出的目标数;FP为检测错误的目标数;FN为未被检测出来的目标数;n为类别数;P为某个目标类的精确度;APi为某个目标类的平均精度[18]。

3 结果与分析

3.1 实验评价分析

3.1.1 消融实验

消融实验结果如表2所示。在IS提升方面,自注意力机制和SLE标签编码器的贡献较为突出,与原StyleGAN 模型相比分别提升了1.2 和2.2;而在降低FID 方面,自注意力机制、SLE 标签编码器和输出分辨率调整的贡献较为突出,与原模型相比分别降低了7.1、6.2和4.8。

表2 消融实验结果

3.1.2 直观评价

为全面展示生成的路面缺陷图像效果,选取改进StyleGAN训练的各个迭代生成阶段效果,如图4所示,kimg 表示模型迭代次数。当kimg 为50 时,图像存在失真现象,并出现大小不一的环形斑点噪声,但底色已呈现泛灰色,接近路面颜色;当kimg为100时,图像中仍存在斑点噪声,路面缺陷模糊,肉眼无法判断;当kimg 为500 时,路面缺陷图像开始显现,较为清晰,可以用肉眼判断其路面缺陷特征,但仍存在些许噪声,部分图像边角模糊;当kimg 为1500 时,整体生成的图像几乎与真实图像一致,通过肉眼能够辨认出路面缺陷类型。

图4 改进StyleGAN训练效果图

在500 张原始路面缺陷数据集的基础上,DCGAN、CycleGAN、StyleGAN和改进StyleGAN训练所得到的生成图像,如图5所示,可以发现DCGAN生成的路面缺陷图像存在较多的噪声和一定的扭曲,模型训练不够稳定;CycleGAN 生成的图像边缘模糊,纹理细节粗糙,有色差偏移的现象;StyleGAN生成的图像较为真实,表面光滑,但仍然有存在明显与原始图像不符的缺陷特征,有些相对模糊;改进StyleGAN所生成的路面缺陷图像基本展示出了路面缺陷及其纹理细节,灰度分布与真实图像大致相同,整体相似度较高。根据直观评价分析,文中算法生成的路面缺陷图像表现较好。

图5 不同生成算法生成路面缺陷对比图

3.1.3 量化评价

表3 列出了针对路面缺陷图像生成的各个模型在IS 和FID 评估指标上的表现。文中算法在FID指标上达到了54.2,比原StyleGAN模型提高了12.3,同时在IS 指标上也提高了3.6,达到了52.1。表明改进StyleGAN 算法生成的图像质量更高,与真实图像更加相似。

表3 IS和FID量化评估指标对比

3.1.4 损失函数对比分析

生成器模型和判别器模型在训练过程中的损失函数对比见图6。kimg 为0~100 时,生成器损失和改进的生成器损失迅速下降,kimg超过100后趋于平缓;而判别器损失和改进的判别器损失在kimg为0~100时迅速上升,kimg超过150后趋于平缓。相较于生成器损失和判别器损失,改进的生成器损失和判别器损失收敛速度更快,趋势更平缓,改进的损失函数提高了模型训练的效率和稳定性。

图6 损失函数对比

3.2 目标检测应用评价分析

图7 为使用改进StyleGAN 数据增强后的YOLOv5目标检测效果图,图中对裂缝、龟裂和坑洞的识别精度分别为0.94、0.92 和0.95,达到了实验预期效果。将文中算法生成的图像应用于路面缺陷检测并进行评价分析,使用YOLOv7、YOLOv5、Faster R-CNN和SSD主流目标检测算法进行验证,迭代次数设置为150。图8给出了4种目标检测算法在不同数据集中的平均精度变化曲线。使用原始数据集进行目标检测,平均精度仅62%,表现不佳。然而,对原始数据集进行扩充后,目标检测平均精度得到一定程度的提升。表4 为使用不同生成式对抗网络算法得到的扩充数据集在目标检测模型的平均精度对比,可以看出,DCGAN对平均精度 提 升 约12%,CycleGAN 约15%,StyleGAN 约19%,改进StyleGAN约30%。为了进一步说明扩充数据集对目标检测算法的影响,表5给出了使用不同生成式对抗网络算法得到的扩充数据集在目标检测模型的召回率值对比。DCGAN的召回率降低11%左右,CycleGAN 降低4%左右,StyleGAN 提升约4%,改进StyleGAN 提升约7%。综上所述,改进StyleGAN 能有效提高目标检测算法的性能,具有较高的鲁棒性。

表4 平均精度均值对比

表5 召回率对比

图8 平均精度均值迭代对比图

4 结论

文中提出了基于改进StyleGAN 的路面缺陷数据增强方法,实验证明,改进StyleGAN优于其他生成式对抗网络,能够提升路面缺陷图像数据集的质量,为AI 路面缺陷图像分析提供参考。后续拟将改进StyleGAN模型用于其他样本数量不足且质量较差的数据集,并移植到移动设备,提高缺陷检测的准确性和可靠性。

猜你喜欢
注意力损失路面
让注意力“飞”回来
胖胖损失了多少元
用艺术修补路面
玉米抽穗前倒伏怎么办?怎么减少损失?
“扬眼”APP:让注意力“变现”
A Beautiful Way Of Looking At Things
一般自由碰撞的最大动能损失
损失
一款透水路面养护车
BFRP连续配筋复合式路面配筋设计