基于改进YOLOv3的锌阴极板残留物图像识别方法

2021-04-22 05:25鲁恒润杨文旺
矿冶 2021年1期
关键词:阴极主干尺度

鲁恒润 李 强 杨文旺

(矿冶科技集团 北矿机电科技有限责任公司,北京 100160)

阴极板的锌片脱离是锌电解生产工艺中的重要步骤之一,自动剥锌机通过剥刀可实现锌片自动剥离,但由于剥锌机在剥离锌片过程中会产生锌片剥离不彻底导致极板残留锌片。传统方法需要工人使用工具进行二次剥离,人工剥离效率低、劳动强度大。随着机器视觉技术的快速发展,使用视觉技术识别锌阴极板残留具有非接触、实时性好的特点,可以有效提高剥锌机的剥锌效率,提升装备智能化水平。

在图像识别领域,传统的识别方法大都采用基于特征的方式[1-2],通过提取目标识别物的纹理、颜色、形状等信息进行识别,该方法依赖于人工设计的特征,当目标物的颜色、光照等发生变化时,识别准确度、稳定性无法保证。另外,基于模板匹配的方法,根据图像之间的相似度进行识别,同样容易受到外界干扰(光照、拍摄角度等)造成的影响。

近年来,深度学习技术在图像识别等领域快速发展,基于深度学习的图像识别方法通过多层卷积神经网络自动提取图像的特征,具有较高的鲁棒性和识别准确度[3-13]。本文以算法YOLOv3[12]为基础,通过改进算法的主干网络以及候选框生成策略提升了模型的泛化能力,提高锌阴极板的残留物识别的准确度,实现故障锌极板的在线识别。

1 YOLOv3算法原理

YOLO(You only look once)系列算法是单阶段目标检测器中经典算法之一,由Joseph Redmon 等在2016年首次提出。YOLOv3是其第三代版本,在YOLOv1[10]和YOLOv2[11]算法的基础上,结合FPN特征金字塔[13]和Faster-rcnn[8]的Anchor机制,显著提升了单阶段检测器的检测精度。

1.1 边界框预测

YOLOv3使用k-means聚类方法为每个尺度各生成3个锚点框,网络预测边界框的4个坐标值,计算方法如公式1~4。

bx=σ(tx)+cx

(1)

by=σ(ty)+cy

(2)

bw=pwetw

(3)

bh=pheth

(4)

式中,tx、ty、tw、th为网络的预测输出;(cx,cy)为相对于图像左上角的偏移值;pw、ph为锚点框的宽度和高度;bx、by、bw、bh预测值转化为实际输出坐标值,σ(·)为Sigmoid函数。

1.2 多尺度预测

为解决小目标检测较差问题,YOLOv3采取了FPN特征金字塔网络的思想[12-14],输出三种不同尺度的特征图并将不同尺度特征图相互融合做预测。YOLOv3使用了52×52、26×26和13×13三种尺度的输出作为预测,三种不同尺度的特征图分别从网络的不同层输出且相互融合,包含了更多的语义信息,大尺度的特征图语义信息丰富,适合检测小目标物体,通过多尺度预测提升了对小目标检测的效果。

1.3 主干网络

YOLOv3使用darknet53作为主干网络,darknet53具有52个卷积层和1个全连接层做成,交替使用3×3和1×1的卷积核,采用残差模块解决网络层数加深梯度消失或梯度爆炸导致的训练退化问题。YOLOv3的3个尺度输出分别从主干网络的32倍下采样、16倍下采样和8倍下采样层获得,尺度特征图之间通过1×1的卷积和2倍上采样操作分别进行尺度融合。

1.4 损失函数

YOLOv3的损失函数由3部分组成,分别是坐标损失、置信度损失和类别损失。其中坐标损失采用平方和误差进行评价,置信度和类别概率使用二值交叉熵进行评价。

2 算法改进

2.1 主干网络结构

网络的输入由256×256×3修改为512×512×3分辨率提升了一倍,有利于保留更多的有用信息。使用改进的深度可分离卷积网络Xception[14]代替原有的Darknet53主干网络。如图1所示,Xception网络由输入头、中间体和输出体三部分组成,网络结合了残差和宽度拓宽思想,在Inception网络的基础上将普通的卷积替换成可分离卷积。三个预测图分别从Xception网络模块Block4、Block13和Block14的可分离卷积层输出,大小分别为64×64×728、32×32×1024和16×16×2048。与YOLOv3的结构相同,尺度特征图之间通过1×1的卷积和2倍上采样操作分别进行尺度融合操作。

图1 YOLOv3-Xception网络结构Fig.1 Network structure of YOLOv3-Xception

2.2 正负样本不平衡处理

YOLOv3单阶段目标检测在候选窗口的生成上采用锚点机制,当正样本较少情况下会产生大量的负样本,大量负样本会导致网络过度关注负样本,降低模型的识别效果(增加漏检率)。在阴极板残留物识别属于单类目标识别且绝大多数故障板仅有1块或者2块呈块状分布的残留区域。实验中发现这种候选框生成机制会导致严重的正负样本失衡问题,正负样本比高达1∶318。

通过观察阴极板残留,发现阴极板残留物所在区域主要分布在极板的两侧。为了进一步统计阴极板残留的分布区域规律,针对残留物目标统计训练集中所有图片目标中心所落区域的散点如图2所示(黑色点为训练集中标记的残留物区域的矩形框的中心点位置,(x,y)中心点在原图中的像素点位置)。

图2 目标中心所落区域分布Fig.2 Target center distribution

从图2中可以看出,阴极板残留物主要分布在极板两侧,中间区域绝大部分为负样本区域。如图3所示,以横坐标x将图片划分为5个区域,分别统计5个区域内落点占比。

图3 目标中心所落区域分布频率Fig.3 Distribution frequency of target center

在训练过程对于预测的坐标值(bx,by,bw,bh)当迭代次数小于等于N时,按照原有Anchor机制生成候选框。当迭代次数大于N且生成框的横坐标位于0~100、200~300或者400~500区域时,预测Anchor坐标值按照指数进行衰减,如公式5所示。

(5)

式中,epoch为迭代次数,N为可调超参数;(bx,by,bw,bh)为预测坐标值。在训练初期正负样本对网络的训练影响不大,当训练到一定次数后,由于正负样本的失衡会导致网络对负样本倾斜,此时需要减低负样本的权重值,使网络增加对正样本关注。根据阴极板残留区域的分布规律可知,残留主要分布在阴极板的两侧,因此可对除两侧之外的其他区域(负样本出现概率大的区域)的预测坐标值进行衰减。

3 实验结果与分析

3.1 参数配置

使用Python3.5编程语言、Tensorflow1.14深度学习框架,结合Intel(R)-CPU-E5-2620-V4处理器,在Ubuntu 16.04操作系统下进行实验。使用Nvidia Titan RTX显卡、CUDA10.0和cuDNN7.6调用GPU进行加速。迭代次数N取1 000,使用Adam梯度下降,学习率取0.001,batch大小为4。

3.2 实验数据集分布

如表1所示,数据集分为训练数据集和测试数据集,共486幅图片数据。其中有残留图片384幅,从中随机抽取318幅作为训练数据集,66幅作为测试数据集,无残留数据102幅,从中随机抽取29幅作为训练数据集,73幅作为测试数据集。

表1 训练和测试集分布

3.3 实验结果分析

表2所示为3种不同模型的识别结果,Model1使用的是原始YOLOv3-darknet53模型,Model2使用的原始YOLOv3中将Darknet主干网络替换为Xception网络的YOLOv3-Xception模型,Model3使用的改进的YOLOv3-Xception模型(替换主干网络为Xception网络并调整生成候选框策略)。从表2可知,相比原始的YOLOv3-darknet53模型,改进的YOLOv3模型在有残留识别率和无残留识别率上均有较大提升。测试识别效果显示:Model 3>Model 2>Model 1。

表2 识别结果

为进一步分析原因,做出了3种模型训练过程的损失曲线图。如图4所示,Model 1训练集损失曲线随着迭代次数增加逐步下降并趋于平缓,但交叉验证集损失曲线振荡下降且曲线始终位于训练集损失曲线上方,表明模型处于欠拟合状态,学习效果较差。

图4 YOLOv3-Darknet53模型损失曲线Fig.4 Loss curves of YOLOv3-Darknet53 model

如图5所示,Model 2训练集损失曲线和交叉验证集损失曲线随着迭代次数增加逐步下降并趋于平缓,交叉验证集损失曲线略微位于训练集损失曲线上方,说明相对于原始的YOLOv3-Darknet53主干网络,Xception网络提升了模型的拟合能力。

如图6所示,Model 3训练集损失曲线和交叉验证集损失曲线随着迭代次数增加逐步下降并趋于平缓,且2个曲线几乎重合,模型的拟合能力进一步得到了提升,主要原因是通过改进候选框生成策略,解决了模型正负样本失衡问题,使得模型对正负样本的学习能力得到了提升。

图5 YOLOv3-Xception模型损失曲线Fig.5 Loss curves of YOLOv3-Xception model

图6 改进的YOLOv3-Xception模型损失曲线Fig.6 Loss curves of improved YOLOv3-Xception model

训练过程损失曲线进一步证明了通过主干网络和候选框生成策略的调整,检测模型的泛化能力得到了明显提升。如图7所示,列举了常见的几种锌极板残留情况以及使用本文改进算法的识别结果。

图7 实际检测效果 Fig.7 Effect of actual detection

4 结论

1)针对原有网络特征提取能力不足,使用Xception网络调整了原有Darknet53主干网络结构,提升了模型的特征提取能力。

2)通过训练过程预测值指数衰减改进候选框生成策略,有效减低正负样本不平衡导致学习向负样本偏移问题,有利于降低识别的漏检率。

猜你喜欢
阴极主干尺度
专利名称:一种废铅电池膏泥非等电位固相电解提取金属铅粉的阴极结构
环境史衰败论叙事的正误及其评判尺度
电除尘器阴极线防脱落结构改进
Evaluation of Arctic Sea Ice Drift and its Relationship with Near-surface Wind and Ocean Current in Nine CMIP6 Models from China
抓主干,简化简单句
矮砧密植苹果园动态修剪效果好
大中小功率霍尔推力器以及微阴极电弧推进模块
宇宙的尺度
9
寓美于物理力学主干知识的复习