基于改进残差网络的交通标志识别算法

2022-05-05 13:37梁正友耿经邦
计算机与现代化 2022年4期
关键词:交通标志集上注意力

梁正友,耿经邦,孙 宇

(广西大学计算机与电子信息学院,广西 南宁 530004)

0 引 言

交通标志自动识别是高级驾驶员辅助系统[1](Advanced Driver Assistance System, ADAS)和自动驾驶领域的一个重要的研究方向。由于近年来驾驶者对汽车的智能化要求不断提高,交通标志自动识别功能逐渐被各个汽车厂商所重视[2-3]。因此,越来越多相关领域的研究人员开始致力于交通标志自动识别的研究。在驾驶过程中,驾驶者可能会因为注意力不集中等原因忽视部分交通标志的提示信息,若ADAS能及时地识别出相关的交通标志[4]并给予驾驶者相关提示,则能够大大提升行车安全性。而在将驾驶任务完全交给行车电脑的自动驾驶领域,准确地识别道路交通标志更是一项对乘客和道路交通安全有着重大影响的任务[5-6],因此对交通标志的识别准确率要求极高。

随着近年来深度学习技术的发展,一些优秀的卷积神经网络模型在图像识别任务上的性能已经超过了传统的手工特征识别方法[11],因此研究人员开始寻求通过深度学习技术来提高交通标志自动识别准确率的方法。孙伟等人[12]提出了一种多层特征表达和极限学习机的交通标志识别方法,对模型提取的多层特征图进行多尺度池化操作,形成一个具有多尺度的特征向量,以提升特征的表达效果。伍锡如等人[13]利用图像聚类算法[14]对原始数据集的样本进行优化,采用多种图像预处理操作使样本整体质量进一步提升。何锐波等人[15]结合SENet注意力机制和残差网络思想充分训练网络模型,取得了一定成果。但是当前基于深度学习的交通标识检测算法的识别准确率与实际应用的要求还有一定的差距。

本文在残差网络的基础上引入多尺度特征融合和注意力机制,并在GTSRB[16]交通标志数据集和BelgiumTS[17]交通标志数据集上进行实验,实验结果表明改进后的残差网络在识别准确率上有明显提高。

1 残差网络

ResNet[18]由Microsoft Research的He博士提出。相对于VGG-Net网络[19],残差网络的主要优势有2方面:首先在不影响梯度稳定性的情况下可以获得更深的网络层次;其次可以更好地控制模型参数数量。残差网络是由多个残差模块堆叠而成,解决了常规网络中深度增加导致的梯度问题。

残差块的结构如图1(a)所示,残差块通过Shortcut Connection连接方式实现对输入和输出的叠加,提高了模型的训练速度和效果。残差网络的表达方式如公式(1)所示:

(a) 残差块结构 (b) 瓶颈块结构

H(x)=F(x)+x

(1)

其中,x为输入,F(x)为经过卷积层得到的输出,H(x)为该结构的输出。残差网络解决了常规网络中深度增加导致的梯度问题,对于x和H(x)之间的映射关系H(x)=x,可以用函数H(x)=F(x)+x代之以优化。

220 双水杨酸酯通过抑制内质网应激缓解高脂饮食小鼠的高血糖状态 袁心露,聂 丽,盖 领,姚宁华,顾云娟,朱晓晖,孙 诚,崔世维

在实际使用中,何凯明等人为了进一步降低计算机的消耗,针对这一问题又设计了瓶颈模块,如图1(b)所示,瓶颈模块依次由1×1、3×3、1×1这3个卷积层构成。1×1的卷积层的作用是对特征映射进行升维或降维处理,使得3×3的卷积层能够以更少的计算量对输入图像进行特征提取。

2 改进的残差网络模型

2.1 多尺度特征融合

多尺度特征(Multi-scale Feature)可以把不同层次的信息进行融合,使模型能够融合多个卷积层的多尺度信息来增强特征的表达能力,有助于提高网络性能[20-21]。考虑到低层所包含的特征语义信息不够充分,本文使用较高层次的特征进行融合,将输出维度为14×14×512的卷积层和输出维度为7×7×1024的卷积层最后一层的特征信息分别进行卷积和全局平均池化操作,将得到的特征向量与原始向量进行融合,具体方法如图2所示。

图2 多尺度特征融合

2.2 注意力机制

注意力机制划分为通道注意力机制、空间注意力机制[22]和混合注意力机制。基于通道注意力机制的方法主要研究每个通道对图像特征获取的重要程度及其耦合关系;基于空间注意力机制的方法通常是计算空间注意力特征,对图像或者特征进行空间变换,提取有价值的信息;基于混合注意力机制的方法则是同时考虑通道信息和空间信息。Hu等人[23]提出的SENet利用各特征通道间的相互关系,对网络添加了注意力模型。SENet网络模块如图3所示。

图3 SENet网络模块

本文拟借鉴SENet的方式,对网络引入基于特征通道的注意力机制。先对输出维度为4×4×2048的卷积层最后一层的特征信息进行全局平均池化操作,通过Fully Connected层和ReLU激活函数将输入特征维度降低,再通过一个Fully Connected层将特征维度恢复,这样可以对通道间复杂的相关性进行拟合,减少参数量和计算量,然后通过Sigmoid获得归一化后的权重,将权重加权到每个通道的特征上,并对加权后的特征进行3×3卷积处理,具体方法如图4所示。

图4 通道注意力机制示意图

2.3 模型设计

多尺度特征融合了多个层次的特征信息,注意力机制提高了网络处理信息的有效性,进一步增强了网络的识别能力,本文把这2种方法同时加入ResNet网络中。首先将网络输出维度为14×14×512的这一层和输出维度为7×7×1024的这一层的最后一层的特征信息分别进行卷积和平均池化操作,然后对输出维度为4×4×2048的这一层的最后一层特征信息引入基于特征通道的注意力机制获取通道权重,并对原始通道特征进行加权,最后将使用注意力机制加权后的特征向量与经过多尺度处理后的特征向量进行融合。本文把在ResNet50的基础上引入多尺度特征融合的模型称为ResF,在ResNet50的基础上引入注意力机制的模型称为ResA,把同时引入多尺度特征融合和注意力机制的模型称为ResFA,模型ResFA的网络结构如图5所示。

图5 模型整体框架示意图

3 实 验

实验的环境如下:操作系统环境为Centos6.5,利用Keras2.3.1完成模型的搭建,编程语言为Python3.6,模型训练的主要硬件设备为NVIDIA TESLA T4。

3.1 实验数据

本文使用的数据集是GTSRB和BelgiumTS。GTSRB数据集由43类交通标志组成,共有39209张训练样本和12630张测试样本,样本像素的尺寸范围大多为15×15到250×250之间。BelgiumTS交通标志数据集和GTSRB交通标志数据集很相似。BelgiumTS数据集由62类交通标志组成,数据样本有7000多张,其中训练集有4575张,测试集有2520张。

3.2 预处理

3.2.1 尺寸归一化

通过对交通标志数据集图像进行尺寸归一化处理,能够提高模型处理效率,进一步优化模型训练。本文使用双线性插值算法[24]进行尺寸调整。

双线性插值方法是对包含2个变量插值函数的线性插值扩展。如图6所示,在x方向和y方向的线性插值得到了R1、R2和P,得到的数据能够较好地保持内容的不变性。本文将GTSRB交通标志数据集和BelgiumTS交通标志数据集的所有图片尺寸归一化为112×112。

图6 双线性插值示意图

3.2.2 图像预处理

交通标志识别与整体目标识别不同。由于交通标识在采集过程中可能会受到雾、雨、雪和照明等各种外部因素的影响,且采集时的光线问题会使得采集到的图像较暗且存在较多的噪点,这些问题会对算法的识别准确率造成较大的影响。因此,采用一些预处理技术来改善图像的质量,能够在一定程度上提高网络的目标识别准确率。因此本文在进行识别之前,对数据集进行图像灰度化和直方图均衡化处理[25],以减少甚至消除不利因素对算法识别效果的影响。

为了能够更好地体现图像的整体信息,本文采用加权法进行操作,具体方法如公式(2),其中R、G、B分别代表颜色的基量,G′表示灰度值大小。

G′=0.299R+0.587G+0.114B

(2)

直方图均衡化的主要目的是把图像灰度直方图的多个部分从比较集中的某些区域变得在所有灰度范围内各个像素点之间更加均匀。具体方法如公式(3),其中,sk表示输出度,rj表示输入度,T(·)表示灰度映射函数,图像的灰度范围为[0,L-1],pr(rj)表示灰度值为rj的归一化概率,nj表示灰度为rj的像素个数,MN表示图像的像素总个数,k=0,1,…,L-1。

(3)

3.2.3 图像增强

比较成熟的深度学习网络都需要大量的样本去训练,GTSRB交通数据集和BelgiumTS数据集中的样本又很有限。针对这种情况,本文采用平移、选择、缩放、剪切等技术对数据进行增强。

3.3 实验建立

本文实验将使用GTSRB交通标志数据集和BelgiumTS交通标志数据集进行模型训练。对原有数据集中的训练集,按照1:9的比例,把训练集中的10%当作验证集,把剩下的对模型进行训练。实验中采用自适应学习的方法,训练总轮数为50,网络训练的学习率为0.001。

3.4 评价指标

在图像分类任务中,多使用识别准确率、测试时间等指标来评价模型效果。为了衡量改进后模型ResFA对交通标志的识别性能,本文采用这2个评价指标对模型的性能进行分析,通常情况下,模型的识别准确率会随着迭代次数的增加而提高。假设数据样本数量为X,Tx表示交通标志的正确识别个数,则准确率Px计算如公式(4):

(4)

测试时间为模型对测试集的所有样本进行预测所需要的时间。

3.5 实验结果与分析

在GTSRB和BelgiumTS数据集上对改进后的模型ResFA进行训练。表1展示了在GTSRB交通标志数据集上模型ResFA和其他前沿学习方法的性能对比。

表1 GTSRB数据集上本文与其他方法实验结果对比

表2展示了在BelgiumTS交通标志数据集上模型ResFA和其他前沿学习方法的性能对比。

表2 BelgiumTS数据集上本文与其他方法实验结果对比

表1和表2的实验结果表明,改进后的模型ResFA在GTSRB数据集上的识别准确率达到了99.31%,在BelgiumTS数据集上的识别准确率达到了98.96%,改进后的模型ResFA在识别准确率上要优于表中的其他先进方法。在与其他先进方法对比的同时,使用经典神经网络VGG-16[19]、ResNet34[18]和MobileNet[26]在GTSRB和BelgiumTS交通标志数据集上进行实验。VGG-Net采用连续的较小卷积核,增加网络深度的同时减小了学习代价;ResNet解决了随着网络深度增加带来的收敛困难问题;MobileNet网络采用深度可分离的卷积,有效减少计算量,缩小了模型大小。通过与VGG-16等经典神经网络多次训练对比,进一步验证了本文改进后方法ResFA的有效性。

为了充分验证本文所提模型ResFA的有效性,本节对模型ResFA进行消融实验,验证模型加入某一模块后对整体的影响。由于在原始ResNet50的基础上加入了新的模块,理论上模型ResF、模型ResA和模型ResFA计算量和参数量会有所增加,所以除了比较识别率之外,实验还需对计算量和参数量进行对比。

图7展示的是在GTSRB交通标志数据集上模型ResNet50、ResFA、ResF和ResA的识别精度随着迭代次数递增的效果图。图中纵坐标为准确率,横坐标为总迭代次数。由图7可知,模型ResNet50在训练前期存在震荡,波动较大,当epoch在30左右的时候,模型ResNet50的曲线才开始趋于稳定,相对而言,模型ResF和模型ResA比模型ResNet50稳定性更好。虽然模型ResFA在训练前期存在些许震荡,但收敛较快,当epoch在15左右的时候,模型ResFA的曲线就开始收敛趋于稳定,网络性能表现更好,且模型ResFA在识别性能上优于模型ResF和模型ResA。

(a) ResNet50

图8展示的是在BelgiumTS交通标志数据集上模型ResNet50、ResFA、ResF和ResA的识别精度随着迭代次数不断变化的效果图。图中纵坐标为准确率,横坐标为总迭代次数。由图8可知,模型ResNet50在训练过程中波动较大,收敛较慢,相对而言,模型ResF和模型ResA在训练前期虽有一定震荡,但收敛较快,稳定性相比模型ResNet50要更好一些。虽然模型ResFA在训练前期存在些许震荡,但是当epoch在20左右的时候,模型ResFA的曲线就开始收敛趋于稳定,网络性能表现更好,且模型ResFA在识别性能上优于模型ResF和ResA。

(a) ResNet50

在多次的实验过程当中观察到,所提出的模型在GTSRB和BelgiumTS这2个交通标志数据集上训练50个迭代周期(epoch)后,模型在训练集和验证集上的损失变化较小,损失曲线趋于稳定,因此可以认为本文提出的模型在训练50个迭代周期后,模型已经到达了接近于全局最小值的某一区域,且在测试集上的识别准确率同样较好,表明在该区域中模型的泛化能力与精确度达到了较好状态,因而可以认为模型在训练50个迭代周期后即达到了收敛状态。

为了更直观地对实验结果进行对比,本文将模型ResNet50、ResF、ResA和ResFA的实验结果输出,从识别准确率、测试时间2个方面进行对比,如表3和表4所示。

表3 GTSRB数据集上不同模型实验结果对比

表4 BelgiumTS数据集上不同模型实验结果对比

从表3和表4可以看出,在GTSRB和BelgiumTS交通标志数据集上经过充分训练后,模型ResFA在数据集上的准确率相比ResNet50、ResF和ResA有所提高。由于模型ResF、模型ResA和模型ResFA加入了新的模块,计算量和参数量相对模型ResNet50会有一定增多,所需要时间也会有一定增多,但是可以满足实时性要求。

4 结束语

本文在ResNet网络基础上引入多尺度特征融合和注意力机制。首先,通过融合ResNet模型多个层次的多尺度特征,以避免下采样过程中损失的高层次特征对识别效果的影响。其次,通过注意力机制来使模型在特征提取过程中,更加关注图像中包含重要特征的区域。实验表明,改进后的ResNet模型识别准确率有明显提高,能够更好地满足交通标志识别任务的高准确率要求。所提出的方法虽然有效地提升了交通标志自动识别的准确率,但是依然存在一些问题,如增加了模型复杂度,计算量有一定增加,实时性方面有一定局限性。因此,如何在保证识别准确率的前提下,降低模型复杂度,减少算法所需时间和计算资源,更好地满足实时性应用和需求,将是下一步的研究方向。

猜你喜欢
交通标志集上注意力
基于双向特征融合的交通标志识别
让注意力“飞”回来
GCD封闭集上的幂矩阵行列式间的整除性
基于互信息的多级特征选择算法
如何培养一年级学生的注意力
A Beautiful Way Of Looking At Things
交通标志小课堂
师如明灯,清凉温润
我们欢迎你!
几道导数题引发的解题思考