基于单目视觉的石化作业区外因明火感知与测量方法

2024-04-26 15:48段志伟豆全辉邵女
化工自动化及仪表 2024年2期
关键词:注意力机制图像处理

段志伟 豆全辉 邵女

基金项目:国家自然科学基金(批准号:51474069)资助的课题。

作者简介:段志伟(1980-),副教授,从事测控技术与仪器的研究。

通讯作者:豆全辉(1996-),硕士研究生,从事工业自动化与智能仪器的研究,18325795623@126.com。

引用本文:段志伟,豆全辉,邵女.基于单目视觉的石化作业区外因明火感知与测量方法[J].化工自动化及仪表,2024,

51(2):199-206;318.

DOI:10.20030/j.cnki.1000-3932.202402008

摘 要 针对目前石化作业区外因火灾监测方法大都没有火源定位功能的现状,提出基于单目视觉的外因明火感知与测量方法。首先改进YOLO v7深度学习网络的SiLU激活函数,并引入注意力机制CBAM,使感知网络获得更好的准确性、互适性;随后基于相机成像原理建立物距与像素、分辨率等因子的多元关系测量模型进行距离预测。实验表明:优化后的网络mAP_0.5值提升了2.2%,Precision值提升了5.0%,预测距离误差率绝对值小于3.1%。

關键词 单目视觉 明火感知 YOLO v7深度学习 图像处理 注意力机制 多元关系

中图分类号 TP393.08   文献标志码 A   文章编号 1000-3932(2024)02-0199-09

石化产业为我国现代化建设、科技化发展提供了有力支撑,但也存在着一定的安全问题[1]。因此,采取有效的石化作业区外因明火感知与定位具有重要意义。石化作业区外因明火主要来自机器热源或人为活动导致。前期小火源如果不能被及时发现,极易扩大,因此实时感知并定位石化作业区明火,能够及时为消防人员和智慧消防系统提供信息反馈,有效防止火灾的发生。传统的明火识别与预警模块由感温、感烟等传感器组成,监测范围有限、检测速度滞后,并且没有测量定位功能[2]。笔者借助深度学习图像处理网络

YOLO,利用二维图像结合深度信息源途径模拟并完成单目视觉明火感知与测量作业,以实现可视化并降低成本,为石化、造纸、纺织等场所的外因明火提供更准确的感知、定位和较准确的距离反馈。

1 算法原理

1.1 明火感知算法

1.1.1 YOLO v7网络架构

YOLO v7网络主体由输入端(input)、骨干网络(backbone)、检测头(head)3部分组成,输入端对图片进行预处理对齐成640×640×3规格的RGB图片,由骨干网络层得到3层输出,在检测头层通过骨干网络继续输出3层不同大小的特征图,经过Rep-VGG block和卷积对图像进行分类、前后背景分类和边框预测后,最终输出检测结果[3,4]。

1.1.2 激活函数

激活函数位于骨干网络层,作用是将神经网络非线性化。骨干网络整体结构由ELAN、MP-Conv、CBS模块组成。SiLU激活函数位于CBS模块中,CBS模块由CBS-Conv(卷积层)+BN(Batch Norm)+SiLU组成[5]。从图1所示的CBS模块结构可以看出,该模块里有3种颜色,3种颜色对应的卷积核k和步长s不同。

合适的激活函数能加快网络的学习速度和性能。对比SiLU和Mish激活函数,两者都具有4个特点:

a. 无上界,防止网络饱和。

b. 有下界,能够提高网络的正则化效果。

c. 平滑。首先,与ReLU相比,在零值点连续,可以减少一些不可预测的问题;其次,可以使网络更容易优化,提高泛化性能,一些较小的负输入可以保留为负输出,以提高网络的可解释性和梯度流。

d. 非单调。相对于ReLU,Mish具有连续可微特性,能够有效避免奇点,更好地执行梯度优化。

虽然SiLU激活函数和Mish激活函数都具有一致的特性和很相似的函数曲线,但是SiLU激活函数存在计算量大、网络性能不稳定的问题。如图2所示,在一阶导上界平滑过程中,Mish不仅表现出更小的阈值θ(图2中θ、θ分别表示SiLU′激活函数和Mish′激活函数的上界阈值,不难看出θ<

θ),并且Mish表现出更快的平稳度r(图2中r、r分别表示SiLU′激活函数和Mish′激活函数从峰值逐渐趋于平稳时的长度,不难看出r<r)。文献[6]也提到,Mish激活函数在深度卷积层中表现出了更好的稳定性,并且准确度分别比SiLU和ReLU高出0.5%和1.7%[6]。

图2 SiLU和Mish函数一阶导数对比

1.1.3 CBAM注意力机制

为了提高YOLO v7网络对外因明火目标特征的提取效果,引入注意力机制是必要的。CBAM是一种前馈卷积神经网络简单而有效的注意模块,即在给定输入一个中间特征图(Input Feature),该模块会沿着两个独立的维度(通道和空间)依次推断注意力图,即通道注意力模块(Channel Attention Module,CAM)和空间注意力模块(Spartial Attention Module,SAM),这样的好处是不仅节约了参数和计算力,还保证它能够作为即插即用模块集成到现有网络架构[7],CBAM注意力机制结构如图3所示。

本优化算法是以YOLO v7网络为基础架构,为适应石化作业区外因明火目标的特征学习,提高检测性能和精度,将YOLO v7原CBS模块中的SiLU激活函数替换为Mish激活函数,并加入CBAM(Convolutional Block Attention Modul)注意力机制。优化后的网络模型如图4所示,绿色部分即为优化部分。

1.2 单目视觉测量模型

单目摄像头成像可以简化为小孔成像模型,相当于被拍摄物体的像通过小孔投影到感光元件CCD/CMOS上,即可得到倒立的实像,经由传感器将光信号转换为模拟信号后发送至A/D转换器,经过数字信号处理器处理后将数据传输给CPU由LCD显示出来或由MCU存储图像,此时即为人眼看到的像素图像[8]。

单目视觉成像原理如图5所示。

本研究使用的HBV-1714单目摄像头具有80°视场角、3 mm可变焦距、支持无畸变拍摄、搭配OV9750传感器(1/3英寸(1英寸=25.4 mm))、CMOS感光芯片(感光面长4.8 mm、宽3.6 mm),并且OV9750传感器能够在SXGA (1 280×960)分辨率下工作,具有60帧/秒(即FPS=60)的10位输出,或45帧/秒的12位输出。

根据单目视觉成像原理,摄像头将拍摄的目标从三维场景映射到二维平面上,图6所示为单目视觉多元关系测量模型,该模型共涉及3个平面[9]:

a. 所示目标位于原平面①;

b. 成像平面②,单目摄像头透镜中心点O所在水平光轴交②于点O′;

c. 像素平面③,长a、宽b(分辨率a×b=1280×960),目標锚框长w(像素)、宽h(像素)。

YOLO v7网络以平面③左上角为坐标原点建立像素坐标系O(u,v),目标锚框左上点的像素坐标为(u,v),右下点的像素坐标(u,v),令目标锚框中心点坐标为(u,v)。

由图6可知,△ABO∽△A′B′O,所以AB/A′B′=BO/B′O。因为AB=H,BO=Zc,A′B′=(0.5h+|v-0.5b|)·K,B′O=(v+Δi),Δi=O′B′为水平偏移参数,随着目标横坐标u的变化而变化,Δi=|u-0.5a|·K。综上可得:

Zc=(1)

由图6和式(1)可知,首先要根据实验环境求出参数V。模拟实验,在高为50 cm处固定无俯仰角摄像头,通过给定目标位于光轴中线Zc=

200 cm时,使用模型进行检测并输出目标锚框框选信息:目标锚框高h=58(像素),目标锚框左上点坐标(u,v)=(612,606),目标锚框右下点坐标(u,v)=(670,664),得到的目标框中心点坐标

(u,v)=((u-u)+u,(v-v)+v)=(641,635),代入式(1)求得V≈541695K。

考虑由于人为测量导致的偶然误差和机械误差,引入纠正系数η,得V=(541695±η)·K。

2 实验与结果分析

2.1 准备工作

实验条件:模拟石化作业区外因明火条件,于室内安全器皿内点燃纸张产生明火;实验选用联想R7200拯救者笔记本,Intel(R)Core(TM)i5-7300HQ CPU,8 GB内存,NVIDIA GeForce GTX 1050Ti 4G独立显卡;在Windows 10 64位操作系统安装Pytorch深度学习框架训练检测模型,版本python 3.6,CUDA Version为11.7,torch为1.10,编译器Pycharm。

深度学习网络数据集准备:使用Make Sense平台将开源明火数据集640×640的2 471张图片进行标注,并将训练集、验证集、测试集按照0.75:0.15:0.15分配。

实验以mAP_0.5、精确率P(Precision)及FPS(帧/秒)等指标作为明火感知模型性能的评价指标[11]。为更快获得检测模型帧率,设置检测批大小为32(即每次验证batchsize=32个样本,实现32个样本每帧)。

2.2 明火感知

如图7所示, YOLO v7每次迭代学习300轮(即Epoch=300轮),在步长20(即step=20),蓝色柱状图表示mAP_0.5值,红色柱状图表示抬升值:迭代学习0~20轮内mAP_0.5值抬升最明显,从10.7%抬升至62.1%,抬升值为51.4%;迭代120~140轮内mAP_0.5值抬升几乎为零;迭代140~300轮内mAP_0.5值抬升值为负,出现过拟合现象。

图7 mAP_0.5值变化统计图

进一步观察两个损失指标val/box_loss和

val/obj_loss值(val/box_loss是一种常见的机器学习指标,用于评估模型在验证集上的性能和训练过程中预测的目标锚框损失情况;val/obj_loss常用于评估训练过程中的损失情况),损失指标

val/box_loss和val/obj_loss的表现如图8所示。

图8 损失指标val/box_loss和val/obj_loss的表现

观察图8a中val/box_loss值的表现,在迭代100~150轮学习区间,预测的目标锚框损失值早已趋于稳定。观察图8b中val/obj_loss值的表现,在迭代学习100~150轮时也已趋于稳定,随后出现了抬升;从而进一步判断出过拟合区间。综合考虑,固定迭代周期为120轮/次。

原模型与优化后的模型对比数据见表1。在Epoch为120轮时,优化激活函数对比其他激活函数的实验结果,相比于其他激活函数,改进了Mish激活函数网络的mAP_0.5值和P值最高,分别为75.2%和81.3%,mAP_0.5值优于原网络0.3%,P值优于原网络5.8%;对于不同注意力机制的对比实验,在Epoch为120时,更改激活函数为Mish函数,并在Head层加入注意力机制,相比于CA注意力机制,加入CBAM注意力机制的mAP_0.5值和P值最高,分别为77.1%和80.5%,mAP_0.5值和P值分别优于CA注意力机制1.6%和6.2%。

图9所示为优化前、后mAP_0.5值与P值对比结果,经平滑处理后,mAP_0.5值和P值变化为红色曲线,其结果均较好于原网络蓝色曲线。

图9 优化前、后mAP_0.5值与P值对比结果

以上实验证明,在Epoch为120轮、优化激活函数为Mish、在Head层加入CBAM注意力机制,相比于最初的网络模型有很大提升,优化后的mAP_0.5值从74.9%抬升至77.1%,提升了2.2%;P值从75.5%抬升至80.5%,提升了5%;并且优化后的网络模型FPS值提高为原网络FPS值的28.4%,表明改进方法能够为石化作业区外因明火提供更准确的感知。

2.3 单目视觉测量验证

模拟实验作业区,在固定摄像头高度H为

50 cm时,根据图6像素平面内坐标系O(u,v)和目标在世界坐标系中的大小,可知Zc预测值的影响因子主要来自横坐标u0的水平偏移和纵坐标v0的变化。现基于优化后的明火感知网络,测试单目测距模型,验证以下两种情况:

a. 情况一,目标位于所在平面中线(straight);

b. 情况二,目标位于所在平面中线两侧(左侧bias_left、右侧bias_right),由于目标位于平面两侧情况相同,在式(1)中|u0-0.5a|得以体现,因此本实验只需验证右侧即可。

如图10所示的验证结果,目标分别位于平面中线和右侧;将实际距离与预测距离的误差绘制为条形统计图,如图11所示。

针对情况一(图10a),straight在80~200 cm,实验验证了2×13组,即A1和A2两组各13种不同位置,在Zc为80~200 cm、位置步长10 cm(step=10)时的预测情况,预测距离与实际距离存在的误差如图11a的straight=80~200 cm误差统计所示;针对情况二(图10b),bias_right在90~160 cm,

图10 目标分别位于平面中线和右侧预测情况

验证了2×8组,即B1和B2两组各8种不同位置,在Zc为90~160 cm、相同位置步长时的预测情况,预测距离与实际距离的误差如图11b的bias_right=90~160 cm误差统计所示。

图11 目标分别位于平面中线和右侧

预测误差统计

分析图11a:由A组的预测表現可知,误差范围在-1.4~5.4 cm,最大误差率不大于3.1%;分析图11b中B组的预测表现可知,误差范围在-1.9~4.7 cm,最大误差率不大于2.9%,基本满足短距离内目标测量的可接受误差。

2.4 消融实验

现用消融实验验证优化后的感知网络对比YOLO v5中不同权重文件5s、5m、m6的学习结果,详见表2,可以看出,改进后的YOLO v7网络的mAP_0.5值、P值、FPS值均优于YOLO v5网络。

进一步对比加入单目测距模型后的优化网络与原始网络的性能,明火目标分别位于所在平面中线左侧bias_left=120 cm、平面中线straight=130 cm、平面中线右侧bias_right=120 cm时,原网络/优化后网络模型感知与测距效果对比结果如图12所示。

分析图12,通过对比第1组,在bias_left=

120 cm时,原模型目标预测值mAP_0.5=74%、Zc=117.8 cm,优化后的模型目标预测值mAP_0.5=32%、Zc=120.0 cm;对比第2组,在straight=130 cm的原模型出现了漏检情况,而优化后的模型目标预测值mAP_0.5=69%、Zc=132.2 cm;对比第3组,在bias_right=120 cm时原模型目标预测值mAP_0.5=74%,Zc=119.5 cm,优化后的模型目标预测值mAP_0.5=65%,Zc=120.2 cm,以上3组对照实验表明优化后的网络模型降低了漏检率且距离感知更为准确。

由以上实验结果可知,笔者提出的感知与测量方法对外因明火目标的感知体现了更好的感知效果,对目标锚的框选体现了较好的定位能力。

3 结束语

笔者通过模拟石化作业区外因明火初期火情,提出基于单目视觉的化工作业区外因明火中心感知与测量系统。经过对目标位于两种情况——两组21个不同位置的验证,实验表明优化后的YOLO v7网络在加入了多元关系测量模型后,对外因明火感知有更好的适应性,能够做到明火目标框中心定位和测量的可视化,可为石化、造纸、纺织等场所作业区等,明令禁火场所的消防工作提供可视化感知与明火定位和较好的距离反馈的积极参考。

参 考 文 献

[1] 王志芳,谢文奋,李大宝.炼油装置报警优化治理[J].化工自动化及仪表,2022,49(3):394-397;400.

[2] 王一旭,肖小玲,王鹏飞,等.改进YOLO v5s的小目标烟雾火焰检测算法[J].计算机工程与应用,2023,59(1):72-81.

[3] 李淑娟,任朋欣,薛丁丹,等.基于YOLOv3目标检测的液位测量方法研究[J].化工自动化及仪表,2022,

49(3):280-285.

[4] 吴兴辉,何赟泽,周辉,等.改进YOLO v7算法下的监控水域环境人员识别研究[J/OL].电子测量与仪器学报:1-11[2023-04-21].

[5] MUNIR A, SAGHEER A,AREEJ F, et al.Deep Tran-

sfer Learning-Based Animal Face Identification Model Empowered with Vision-Based Hybrid Approach[J].Applied Sciences,2023,13(2):1178-1197.

[6]   MISRA D. Mish:A Self Regularized Non-Monotonic Activation Function[J].arXiv:Machine Learning,2019.

10.48500/arXiv.1908.08681.

[7]   LUO M L,XU L H,YANG Y L,et al.Laboratory Flame Smoke Detection Based on an Improved YOLOX Algorithm[J].Applied Sciences,2022,12(24):12876.

[8] 盧伟,邹明萱,施浩楠,等.基于YOLO v5-TL的褐菇采摘视觉识别-测量-定位技术[J].农业机械学报,2022,53(11):341-348.

[9] SHI Z,XU Z M,WANG T X.A method for detecting pedestrian height and distance based on monocular vision technology[J].Measurement,2022. https://www.medsci.cn/sci/show_paper.asp?id=b9eac1c3e7965099.

[10] 王冠宁,陈涛,米文忠,等.基于凸壳理论的监控摄像头部分遮挡场景下火焰定位方法[J].清华大学学报(自然科学版),2022,62(2):277-284.

[11] 李善诚.石化真火模拟训练装置池火模拟效果评价[J].消防科学与技术,2021,40(3):398-401.

(收稿日期:2023-04-23,修回日期:2023-05-16)

Sensing and Measurement Method for External Causesincurred Open Flames in Petrochemical Operation Area Based on Monocular Vision

DUAN Zhiwei, DOU Quanhui, SHAO Nv

(School of Physics and Electronic Engineering, Northeast Petroleum University)

Abstract   Considering the fact that most external fire monitoring methods for petrochemical areas have no fire sourcepositioning function, an external causesincurred fire sensing and measurement system based on monocular vision was proposed. Firstly, having SiLU activation function of YOLO v7 deep learning network improved and attention mechanism CBAM introduced to raise sensing networks accuracy and interoperability; secondly, having the camera imaging based to establish multivariate relationship measurement model of the object distance, pixel, resolution and other factors so as to predict the distance. Experimental results show that, the mAP_0.5 value and Precision value of the optimized network can be increase by 2.2% and 5.0%, respectively, and the absolute value of predicted distance error rate is less than 3.1%.

Key words   monocular vision, open fire sensing, YOLO v7 deep learning, image processing, attention mechanism, multiple relations

猜你喜欢
注意力机制图像处理
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
基于深度学习的问题回答技术研究
基于图像处理的机器人精确抓取的设计与实现
机器学习在图像处理中的应用
Bayesian-MCMC算法在计算机图像处理中的实践
基于LSTM?Attention神经网络的文本特征提取方法
基于注意力机制的双向LSTM模型在中文商品评论情感分类中的研究
改进压缩感知算法的图像处理仿真研究
InsunKBQA:一个基于知识库的问答系统