基于改进Faster R-CNN的吸烟检测算法研究

2023-09-18 18:55李波杨慧石实宋亭亭
现代信息科技 2023年15期

李波 杨慧 石实 宋亭亭

摘  要:吸烟和吸收二手烟会对公民的身体健康造成巨大的伤害,在我国因为吸烟而失去生命的人数每年都在递增,为此文章提出一种基于改进Faster R-CNN的吸烟检测算法。采用改进的34层残差网络作为Faster R-CNN主干网络,使用网络公开的吸烟者烟雾数据集进行训练和实验,实验结果表明,该文提出的模型能够准确无误地识别吸烟行为。

关键词:Faster R-CNN;ResNet;吸烟检测

中图分类号:TP391.4;TP183 文献标识码:A 文章编号:2096-4706(2023)15-0069-04

Research on Smoking Detection Algorithm Based on Improved Fast R-CNN

LI Bo, YANG Hui, SHI Shi, SONG Tingting

(Liupanshui Normal University, Liupanshui  553004, China)

Abstract: Smoking and absorbing passive smoking will cause great harm to citizens' health. The number of people who lose their lives due to smoking is increasing every year in China. Therefore, this paper proposes a smoking detection algorithm based on improved Faster R-CNN. Using an improved 34 layer residual network as the Faster R-CNN backbone network, training and experiments are conducted using publicly available smokers' smoke datasets. The experimental results show that the model proposed in this paper can accurately identify smoking behavior.

Keywords: Faster R-CNN; ResNet; smoking detection

0  引  言

根据权威调查数据,全球在2020年吸烟人数达到了10亿,按照目前的数据分析全球烟民呈现上升趋势,在我国吸烟人数非常庞大。《中国吸烟危害健康报2020》显示我国每年死于吸烟的人数达到了100万以上,按照每年吸烟人数逐渐上升的趋势,预计到2030年左右我国因为吸烟导致的死亡人数可能会到达200万[1]。香烟在燃烧时,烟雾中含有很多有毒化学物质,其中尼古丁、烟焦油和一氧化碳对人体伤害最为严重,因此我国现在已经采取了相关措施进行禁烟,为了支持国家的禁烟政策,进行吸烟检测研究具有实际意义,有利于公民的身体健康和我国的发展。

传统吸烟检测是在烟雾传感器的基础上,通过摄像中获取的视频进行特征提取、特征比对以此来判断吸烟者,需要人工选择特征来进行模型构造,具有不稳定性和准确率低等问题[2]。计算机视觉技术和卷积神经网络在烟雾识别的研究中是非常重要的一个研究领域。传统目标检测算法VJ級联检测器[3]、HOG检测器[4]和DPM模型[5]等目标检测模型存在计算机量比较大,需要手工提取图片特征等缺点,同时在实际使用过程中模型出现不稳定和准确率低等问题。2010年由于深度学习的快速发展,特别是2012年AlexNet网络获得ImageNet图像分类比赛的冠军[6],使得深度学习在计算机视觉领域的图片检测技术得到快速发展。使用深度学习进行目标检测可选择的网络通常有VGG[7]、GoogLeNet[8]、ResNet[9]等,通过网络学习能够自动提取图片特征,完成图像分类。

目前目标检测算法大多针对的是大物体检测,吸烟检测的目标在目标图形中是一个小目标,小目标图像存在分辨率比较低且由于图像大小的原因,图像记录的信息比较少,因此在图像目标检测的过程中能够提取的特征较少,加上其他干扰项导致吸烟检测正确率比较低。由于烟头属于小目标,因此当前的目标检测算法识别率不是很高。目前学术界中,基于目标检测的吸烟检测方法较少,相关工作和理论并不完善。本文借鉴Faster R-CNN目标检测网络进行目标识别的原理,同时利用ResNet网络的特性尽可能地保留小目标的特征,针对小物体特征不明显等问题,提出了一种基于Faster R-CNN搭配ResNet网络的吸烟检测算法。

1  改进的Faster R-CNN网络模型

1.1  Faster R-CNN算法

Faster R-CNN是目前主流的检查算法[10,11],该算法具有准确率高和检测时间短等特点,因此目前广泛应用于目标检测领域。Faster R-CNN的计算框架如图1所示,具体流程如下:

1)将原始图片输入到CNN网络,通过共享卷积层得到相应的特征图。

2)使用第一步得到的特征图作为RPN网络的输入,通过RPN网络生成相关的proposal boxes,然后将RPN生成的proposal boxes投影到第一步的特征图上获得相应的特征矩阵。

3)将第二步计算出来的每个特征矩阵通过ROI pooling层缩放到7×7大小的特征图,接着通过全连接层和Softmax计算每个proposal具体属于哪个类别。同时利用全连接层和Bounding box回归算符,获得每个proposal的位置偏移量。

1.2  ResNet网络结构

针对卷积神经网络深度的不断加深,理论上提取的特征越丰富,信息也越多,但是研究者们经过一系列的实验证明一味地增加网络深度将会出现梯度消失、梯度爆炸和退化问题[12]。图2训练集和测试集上面使用20层网络错误率低于56层网络[13]。

为了让更深的网络提取更加细致的特征,He等人提出了ResNet网络。ResNet网络在获得低误差率,需要较小的参数量和计算量的同时,也加快了模型训练的速度,使得训练模型的效果非常突出。ResNet网络的核心部分主要是由F(X )和X进行融合得到,X表示原始输入,F(X )表示X经过多个卷积后的输出,融合式为:

H(X ) = F(X ) + X                      (1)

ResNet网络核心残差模块如图3所示,输入经过两个3×3的卷积核提取特征后和原始输入一起经过ReLU激活函数处理后输出。

1.3  改进的Faster R-CNN网络模型

由于Faster R-CNN对小目标的检测精度明显低于大目标的检测精度,本文检查对象为烟头和烟雾,其占整张图片尺寸较小,特征不太明显,因此直接采用Faster R-CNN网络模型对图片进行直接识别,准确率和效果不佳[14,15]。为了提升准确率,本文对Faster R-CNN网络进行了改造,对Faster R-CNN主干网络使用ResNet改进网络进行替换。

Faster R-CNN的Backbone用于生成图片的特征,为后续网络RPN和RoI polling使用,Backbone的好坏直接影响后续RPN和RoI polling的效果。本文使用改进的ResNet网络作为Backbone,可以有效地保留小物体的原始特性的同时对局部感受野提取特征,本文称改进的ResNet网络为S-ResNet网络模型。改进后的Faster R-CNN框架图包含Backbone、RPN和classifier层,如图4所示。

1.4  S-ResNet模型

ResNet网络核心结构如图3所示,核心模块的输出包含两部分,一部分是直接短接X(shortcut),另一部分是经过卷积层(conv)。直接短接X的主要目的是保留原始特征和防止梯度消失,但是低层卷积层所保留的空间特征信息较多,因此本文通过丢弃部分原始X对ResNet模型进行优化,形成34层的ResNet,命名为S-ResNet。

生成34层的S-ResNet,具体步骤如下:

1)conv1层,使用7×7×64的步长为2的卷积核对原始图形进行特征提取。

2)conv2_x层,使用3×3的最大池化,步長为2进行降维,然后使用3个残差模块,每个残差模块有两个3×3×64的卷积核,其中在第3个残差模块丢弃X,直接使用F(X )作为下一步的输入。

3)conv3_x层,对步骤2)的输入使用4个残差模块,在conv3_1的一层调整步长为2,同时在第4个残差模块丢弃X,直接使用F(X )作为下一步的输入。

4)conv4_x层,对步骤3)的输入使用6个残差模块,在conv4_1的一层调整步长为2,同时在第6个残差模块丢弃X,直接使用F(X )作为下一步的输入。

5)conv5_x层,对步骤4)的输入使用3个残差模块,在conv5_1调整步长为2,同时在第3个残差模块丢弃X,直接使用F(X )作为下一步的输入。

2  实验及分析

2.1  实验环境

本实验环境为:Microsoft Windows 10的操作系统机器,CPU Intel Core i7-10700 CPU @ 2.90 GHz,内存为16 GB,算法运行环境为Python 3.7。

实验数据通过互联网获取,因此使用YOLO Mark工具对图像数据进行标注,标注的内容主要包含class分类以及高度和宽度比例等。本实验数据集通过互联网获取共计8 100张图像,数据标注如图5所示。由于数据量比较小,因此本文通过对标注训练图片进行如随机缩放、翻转、平移、旋转等变换操作来增强数据,使数据集的数据量增加了数十倍。

2.2  实验分析

为了评估模型的有效性、稳定性和准确性,本论文使用精确率计算公式(2)和准确率计算公式(3)进行评价。

本文数据集分两部分,其中训练集占比80%,测试集占比20%,为了证明本论文的有效性,本论文选取选择原始的Faster R-CNN和改进的Faster R-CNN网络模型进行结果比较,如表1所示。

实验结果表明,本文Faster R-CNN的主干网络采用VGG网络,该模型在识别大物时,准确率相对比较高,效果比较理想,在本实验中识别烟头这种小物体效果不明显,正确率达到了75%。为了提升小目标检测的准确率,本论文对Faster R-CNN的主干网络VGG进行替换,采用改进的残差网络作为主干网络,改进的ResNet模型能够提取多层特征,对烟头检测的平均精度有了大幅度的提升,改进的残差网络丢弃部分原始的输入信息,在检测时间上也比VGG网络有了提升,增加了检测的时效性,同时准确率也提升了10%。

3  结  论

吸烟和人类的健康密切相关,不仅影响吸烟者本人的身体健康,同时也会影响自己身边人的健康状况,为了帮助我国推进禁烟,本文针对吸烟者检测进行研究。

本研究使用Faster R-CNN基础网络来对吸烟者进行检测和分类,通过改进ResNet网络作为Faster R-CNN的主干网络。该算法利用Faster R-CNN网络架构,使用ResNet网络对吸烟者进行分类,能够有效实现吸烟者特征提取,解决小物体图片分类问题。本论文通过对比两种目标分类算法,使用网络公共数据集进行测试。实验结果表明:针对小物品分类问题,Faster R-CNN表现效果不佳,正确率在75%左右,本文设计的算法使用Faster R-CNN整体框架,主干网络采用改进的残差网络,可以有效地保留小物品的特征信息,正确率在87%左右,同时算法迭代次数和检测时间也较传统网络低,增加了检测的时效性。下一步研究的重点是继续对小物品的目标检测进行探索,采用不同的网络模型,在小物品检测方获取更高的准确率和时效性。

参考文献:

[1] 国家卫生健康委.中国吸烟危害健康报告2020 [EB/OL].[2023-02-08].http://www.nhc.gov.cn/guihuaxxs/s7788/202105/c1c6d17275d94de5a349e379bd755bf1.shtml.

[2] SENYUREK V Y,IMTIAZ M H,BELSARE P,et al. Smoking detection based on regularity analysis of hand to mouth gestures [J].Biomedical Signal Processing and Control,2019,51:106-112.

[3] VIOLA P,JONES M. Rapid object detection using a boosted cascade of simple features [C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Kauai:IEEE,2001:1-1.

[4] DALAL N,TRIGGS B. Histograms of oriented gradients for human detection [C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05).San Diego:IEEE,2005:886-893.

[5] FELZENSZWALB P,MCALLESTER D,RAMANAN D. A Discriminatively Trained, Multiscale, Deformable Part Model [EB/OL].[2-23-02-09].https://cs.brown.edu/people/pfelzens/papers/latent.pdf.

[6] WU P,XIE J W,ZHENG J C,et al. Human Smoking Event detection Using Visual Interaction Clues [C]//2010 20th International Conference on Pattern Recognition.Istanbul:IEEE,2010:4344-4347.

[7] SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J/OL].arXiv:1409.1556 [cs.CV].[2023-02-08].https://arxiv.org/abs/1409.1556.

[8] SZEGEDY C,VANHOUCKE V,IOFFE S,et al. Rethinking the inception architecture for computer vision [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:2818-2826.

[9] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770-778.

[10] 閆建伟,赵源,张乐伟,等.改进Faster-RCNN自然环境下识别刺梨果实 [J].农业工程学报,2019,35(18):143-150.

[11] 薛之昕,郑英豪,肖建,等.基于多尺度卷积神经网络的交通标志识别 [J].计算机工程,2020,46(3):261-266.

[12] 毕松,高峰,陈俊文,等.基于深度卷积神经网络的柑橘目标识别方法 [J].农业机械学报,2019,50(5):181-186.

[13] 彭明霞,夏俊芳,彭辉.融合FPN的Faster R-CNN复杂背景下棉田杂草高效识别方法[J].农业工程学报,2019,35(20):202-209.

[14] 吴宇豪,陈晓辉.基于改进的ResNet的人脸表情识别系统 [J].信息通信,2020(7):37-39.

[15] 杨长辉,王卓,熊龙烨,等.基于Mask R-CNN的复杂背景下柑橘树干识别与重建 [J].农业机械学报,2019,50(8):22-30+69.