改进的YOLOv4 红外图像行人检测算法

2021-12-01 05:26史健婷张贵强吴林皓
智能计算机与应用 2021年8期
关键词:特征提取卷积行人

史健婷,张贵强,陶 金,吴林皓

(1 黑龙江科技大学 计算机与信息工程学院,哈尔滨 150022;2 黑龙江科技大学 研究生学院,哈尔滨 150022)

0 引言

行人检测技术结合了数字图像处理、模式识别、计算机视觉和其他相关技术,无论是在智慧交通,还是在自动驾驶、人体行为分析等领域有着广阔的发展前景[1]。行人检测技术,是研究和判断所给的图像或在每帧视频序列中,是否存在要检测的行人目标。近年来,道路安全问题频繁发生,在寻找降低交通事故发生方法的同时,行人检测技术也受到人们的广泛关注[2-3]。

行人检测算法可分为传统的算法和基于深度学习的算法。传统的行人检测算法有:Haar 小波特征[4]、HOG+SVM[5]、DPM[6]等等。传统的行人检测主要通过人工设计方法,对图像特征进行提取,进行目标识别和检测,但算法设计复杂,权值参数难以得到较准确的数值,泛化能力不强。

基于深度学习的算法,如卷积神经网络(Convolutional Neural network,CNN)[7],通过大量的数据,能自动学习出目标的原始表征,相较于手工设计的特征而言,具有更强的判别能力和泛化能力[8]。之后出现了一系列改进算法,包括Fast RCNN[9-11]、Faster RCNN[12]、SSD[13]、YOLO[14]等算法。其中,YOLOv4网络结构简单高效,具有易部署、运用场景广泛的特性。特别是针对红外图像下的小目标检测,有很大的应用前景[15]。虽然YOLOv4 网络采用多尺度进行预测,能够结合更好的分类器,但是还存在识别物体的精准性差、召回率低等缺点。因此,本文对YOLOv4 算法进行了改进。通过与原YOLOv4 算法进行比较,将对红外图像行人的检测精准度(MAP)提高了0.04%。

1 YOLOv4 算法

1.1 YOLOv4 网络结构

YOLOv4 算法以CSPDarknet53 作为主干网络,在采用ResNet 短跳连接的同时,增加输入输出的维度拼接,更好的实现了深浅层特征的结合,在主干网络的顶端,加入了SPP 模块。采用1∗1、5∗5、9∗9、13∗13 最大池化的方式,进行多尺度特征融合。该模块和PAN 结构相结合,使分辨率为76∗76 的浅层特征向上传播,保证每个检测头都可以接受浅层特征,极大的增加了网络对小目标特征的表达能力。YOLOv4 的网络结构如图1 所示。

图1 YOLOv4 网络结构图Fig.1 YOLOv4 network structure diagram

除了对主干网络的改进之外,YOLOv4 还引入了其它tricks 来提升网络性能。在激活函数方面,引入Mish激活函数,如公式(1)所示:

函数图像如图2 所示。

图2 Mish 激活函数图像Fig.2 Mish activation function

可以看出,Mish激活函数在x =0 处也是光滑可导的,具有较好的泛化能力和结果的有效优化能力。在数据增强方面,采用Mosaic 数据增强方式,对多张图片以随机缩放、随机剪裁和随机排布的方式进行拼接,大大丰富了数据集,可以让网络直接计算多张图片的数据,增加模型泛化能力。

式中:D2表示预测框和目标框中心点距离,DC为最小外接矩形C的对角线距离。

1.2 注意力机制

注意力机制(Attention Mechanism)在文本分析、行人检测、外界语音处理等方面有广泛的使用。注意力机制就像人类注意力观察一样,通过相应的空间、通道等方面,从软注意力和强注意力两方面进行分析和处理。

2017 年,Jie Hu 等人通过研究,提出了一种新的框架结构——SENet(Squeeze- and- Excitation Network,即“压缩和激励”SE 块)。SENet 通过加强所要研究的重要区域,把所要输入的图像进行卷积,然后得到feature map 进行分析,设计出一个一维向量,作为分数来进行评价。与所要研究的图像通道一样,该向量的每个评价分数采用乘法加权方式,得到原通道的大小,这样处理提高了研究的重要区域。SE 模块的结构图如图3 所示。

图3 SE 模块结构图Fig.3 Se module structure diagram

2 改进的YOLOv4 红外行人检测算法

在YOLOv4 中,主要采用3x3 大小的标准卷积进行特征提取操作。标准卷积由于其感受野的形状和大小均为固定,在对小目标进行检测时,同样会对非目标区域进行特征提取操作,会导致最后卷积所提取到的特征中干扰因素较多,对检测器的预测造成较多的干扰影响。因此,基于YOLOv4 的标准卷积思想,利用形变卷积为核心组件,构建形变特征提取模块,提升对于目标特征提取的有效性。

形变卷积与标准卷积相比,具有3 点优势:

(1)感受野有效性的提升,即特征图在映射目标信息时针对性更高;

(2)卷积核能够适配目标位置进行采样,所提取到的特征信息与目标更匹配;

(3)由于形变卷积经过特征提取时,能够有效针对目标所在区域进行提取,使得特征图在网络中传递时,其稳定性(即权值参数不会突变)优于标准卷积。

形变卷积与标准卷积在进行特征提取操作时的区别如图4 所示。

图4 形变卷积与标准卷积特征提取对比Fig.4 Comparison of feature extraction between deformation convolution and standard convolution

为了增强对于目标位置信息的复用,针对YOLOv4 的注意力机制思想,在每个尺寸的特征图,经由形变特征提取模块组后,加入Coordinate 坐标注意力机制模块,对坐标信息进行加强。Coordinate坐标注意力机制模块基于SE 通道注意力机制进行优化,提取出了特征图横向与纵向的特征权值信息,再通过聚合,以达到精确的目标位置坐标显著性标记。Coordinate 坐标注意力机制模块结构如图5 所示。

图5 Coordinate 坐标注意力机制模块Fig.5 Coordinate attention mechanism module

在图5 中,模块的工作流程主要分为两步:一是提取特征图上X轴与Y轴的特征信息;二是对提取的特征信息进行激活加权。首先,输入到模块的特征图由全局池化分解出两个方向上的一维特征,该过程基于SE注意力机制压缩操作进行优化。

标准全局池化计算过程为:

式中:Zc为全局池化输出;H为特征图的高;W为特征图的宽;Xc为全局池化输入。

Coordinate坐标注意力机制则将全局池化分解为:

完成分解后,再对两个方向的特征图进行聚合,以此获得带有坐标信息的特征图。之后,将该特征图分别由两个二维卷积进行特征提取与激活加权计算,得到两个坐标方向的加权特征信息。将该特征信息映射到特征图中,即可反映目标在特征图中的坐标信息。

对于影响网络定位准确性的因素,最直观的表现为YOLOv4 检测器中的anchors 组件。检测器通过anchors 判定目标是否存在及目标的位置,即anchors 能够对特征图的某个区域是否存在目标进行判定,同时预测目标位置。由于目标的形态大小具有不确定性,即通过手动设定的anchors 尺寸无法准确适配目标的位置,致使在检测时存在一定的偏差。为优化anchor 的定位准确性,在YOLOv4 检测层中加入“Guided Anchoring”机制,通过网络自适应生成anchors,来提高anchors 及候选区域的质量。

不同于常规anchors 操作,在一个坐标点上对一组anchor 的尺寸进行预测并挑出最符合大小的一个,其值对一个anchor 的尺寸进行预测,使得对于不规则目标的拟合性更强,召回率也更高。本文设计的网络命名为YOLO-sd。

3 实验结果与分析

本设计实验环境配置为:软件层次上,操作系统为Ubuntu 18.04,神经网络框架为Darknet,CUDA 版本为10.0,cuDNN 加速包为7.6.4;在硬件层次上主要使用了RTX2080ti 型号的GPU 进行卷积计算加速。

关于红外行人检测算法评价的相关性能指标包括:交并比IOU、精度(precision)、召回率(recall)等。

式中:S1为红外图像预测的行人区域;S2为标注的行人区域;TP为红外图像下行人区域,预测为行人正确情况;FN为红外图像下行人区域,预测为不是行人错误情况;FP为实际不是行人区域,但是预测此区域有行人情况。

所采用的数据集来自OSU Thermal Pedestrian Database,通过数据清洗、预处理等操作,构成2 100张训练集和500 张的测试集。将改进后的模型YOLO-sd 与YOLOv3、YOLOv4 以及SSD 算法进行对比测试,测试结果见表1。

表1 模型检测性能对比Tab.1 Performance comparison of models

通过对比结果可以看出,本文提出的YOLO-sd算法,整体鲁棒性要优于YOLOv3 和YOLOv4;在召回率的对比中,YOLO-sd 优于YOLOv3 和YOLOv4,说明对于目标的查全率更好,且IOU数值也更优。YOLO-sd 与SSD 对比,YOLO-sd 的精度、平均准确率(map)、F2-1Score 要优于SSD;其它指标,召回率和交并比略低于SSD,综合反映了对于主干网络及检测网络部分的优化,在提升网络性能方面有巨大帮助。网络优化性能pr 曲线如图6 所示。

图6 pr 曲线对比Fig.6 Comparison of PR curves

利用YOLO-sd 的实际测试结果如图7 所示。

图7 测试结果Fig.7 Test result

4 结束语

本文提出了一种基于YOLOv4 改进的红外图像行人检测算法YOLO-sd,优化后的YOLO-sd 针对于灰度图及小目标的检测能力有明显提升,提高了红外检测的实用性。该算法主要应用于低像素及小目标的检测环境,主要采用形变卷积为核心组件,构建形变特征提取模块提升对于目标特征提取的有效性,同时针对于形变卷积对特征提取网络模块进行优化,增强了特征信息的传递能力。经测试,优化后的YOLO-sd 在针对于红外小目标的检测场景下检测精度有明显的提高。整体精度提升1.05%,达到83.09%。本文的网络对于夜间来往的行人、驾驶的车辆来说,有辅助参考价值,有助于提高安全性。

猜你喜欢
特征提取卷积行人
同步定位与建图特征提取和匹配算法研究
基于全卷积神经网络的猪背膘厚快速准确测定
基于图像处理与卷积神经网络的零件识别
毒舌出没,行人避让
基于深度卷积网络与空洞卷积融合的人群计数
路不为寻找者而设
基于MED—MOMEDA的风电齿轮箱复合故障特征提取研究
我是行人
卷积神经网络概述
基于曲率局部二值模式的深度图像手势特征提取