果蔬机器人采摘中基于改进SDD模型的目标自动化识别研究①

2024-02-26 03:29田雨泽
关键词:果蔬准确率卷积

田雨泽

(延安大学,陕西 延安 716000)

0 引 言

近年来,随着生活水平的提升,越来越多的人出现了亚健康状态。大部分人在选择锻炼的同时,会加大果蔬的食用量,以补充人体所需的营养成分。同时我国还是果蔬种植大国,不过由于存在采摘困难和劳动力需求量大的问题,果蔬采摘机器人应运而生。利用果蔬采摘机器人能够降低人的劳动强度和生产费用,并利于保障对果蔬及时采摘,提高经济效益的同时,促进果蔬产业的发展[1]。采摘机器人经历了50多年的发展,实际采摘过程中,不仅需要保障果蔬采摘的快速性和实时性,还需要提高采摘机器人的工作效率[2]。SDD网络能够实现对目标的实时检测,并去掉重复和没有意义的边界框,产生最终的检测结果,并具有较高的准确率和速度[3]。鉴于基础的SDD模型对不同尺寸的目标进行检测,产生的效果不理想,此次研究将对SDD网络进行检测,以实现对不同尺寸目标的检测,并提高检测的准确率。

1 基于改进SDD模型的果蔬检测

1.1 SDD网络框架

SDD网络作为一种深度神经网络模型,具有回归思想和候选框机制,能够减少神经网络的计算量,实现端到端的单次多框实时监测。且SDD模型不需要生成候选框,能够对图片中的特征信息直接提取,并利用提取局部特征信息的方法获得不同位置、不同尺寸的特征,具有更高的效率。针对输入图片的目标,主要利用向前传播的CNN卷积神经网络产生固定大小的外边框集合,随后对其类别进行评分,筛除掉大量重复和没有意义的边界框,得到最终检测结果。基础的SDD模型结构一般包括基础网络层和金字塔网络层,其结构如图1所示。

图1中,基础网络层和金字塔网络层均作为特征提取层,并进行非极大值抑制(Non maximum suppression,NMS)后,将目标位置和类别输出。其中,前者主要提取目标的特征,并将自身网格最后两个全连接层转变为卷积层;后者为简单卷积网络,其卷积特征层尺寸不断变小,能够获得多个尺度检测的预测值。同时,低层特征图图像细节信息更多,便于对目标位置进行精准定位,并便于对较小目标物进行检测;高层特征图全局信息更多,使得目标分类更加准确,利于对较大目标物进行检测。

图1 基础SDD模型结构图

SDD网络能够依据待检测目标所处的不同特征图,而设置尺寸不同的默认框,每一层卷积层默认框的尺度计算公式如式(1)所示。

(2)

在实际情况中,按照上述原则匹配,会导致大部分默认框被看作负样本,且正负样本之间的数量差距较大,使得训练得到模型的准确度不高。故需要结合第二个原则,即在剩余的没有匹配的默认框中,如果其中一个真实目标的IOU值大于某一个阈值,可以认为该默认框和该真实目标为相互匹配的关系,能够待识别目标能够与其他多个大于阈值的默认框相互匹配。

依据上述要求,需要在SDD模型中抽取一些负样本进行训练。在负样本集合中,依据置信度误差从大到小进行排列,并将位于负样本集合中的前n个样本加入到训练集合中,将模型放置在重新选好的训练样本集合中实施训练。按照该匹配原则,利用Xij=1表示第i个默认框和类别p的第j个真实标签框为相互匹配的关系,且Xij=0表示两者不匹配。同时,通过求解目标定位损失和分类损失加权之和,可以得到基础SDD检测网络的整体损失函数,表达式如公式(3)所示。

(3)

公式(3)中,N用于描述匹配为正样本默认框数量;Lconf(x,c)为softmax的损失函数;Lloc(x,l,g)意为目标定位的损失值,表示待预测目标位置l和真实目标位置之间的SmoothL1损失[5]。

1.2 基于SDD网络改进的果蔬检测框架

传统的SDD算法能够保障目标识别的准确率和速度,不过在检测小目标或者有遮挡目标过程中,需要增加输入图片尺寸,才能够获得较好的效果。由于此次研究的检测目标单一,大小比例基本上一致,故需要对基础SDD网络的构造及其检测层默认框设计方面进行改进,以提升SDD网络速度。首先对基础的SDD网络卷积层进行改进,改进后的SDD网络结构如图2所示。

基础的SDD网络模型中,一般利用VGG16提取特征,不过在卷积核为3×3的卷积层特征提取后,能够让输入图像的分辨率得到明显的减小,但也会降低较小目标的检测准确率。一般情况下,大部分尺寸较小的果蔬集中生长,为了达到对尺寸较小果蔬更好识别的目的,将原来模型中第四层和第五层的3×3卷积核运算转化为三种卷积核的连续运算,尺寸分别为1×1,3×3和1×1,才能提取得到输入图像中尺度较小的特征。假定C(i)表示基础网络中一层卷积滤波器的数量,若利用3×3的卷积滤波器计算卷积,可知一共需要的参数数量为9C(i)2,表达式如式(4)。

N3=C(i)×3×3×C(i)=9C(i)2

(4)

一般情况下,按照顺序使用尺寸为1×1,数量为C(i)的卷积器,能够获得3×3的感受区域和规格;其中,数量为C(i)的滤波器形成的区域通常一样。同时,大卷积核和小卷积核相比,后者更能把握图像的关键特征。若要使用该三层卷积核,需要将参数数量设置为3.25C(i)2,通过对应的公式,能够使感受范围和原来的模型一样,且使卷积网络计算量有所减少,并加快网络识别速度。同时,小卷积核能够将特征图中更加细小的特征提取出来,能够提升网络的非线性效果。故研究将对SDD网络中的conv4和conv5的3×3卷积核调整为1×1,3×3,1×1的卷积核运算。结果如图3所示。

图3 卷积核结构比较

2 改进SDD模型识别果蔬实验结果分析

2.1 激活函数分析

为了获得比较理想的识别效果,对激活函数、选择优化算法、学习率选择方面解释说明SDD模型参数调整的优化情况。其中三种激活函数图像如图4所示。

图4 不同阈值下参数变化情况

激活函数作为卷积神经网络算法的一个非常重要的特征,一般常见的激活函数包括Sigmoid函数、Teah函数和Relu函数。通过图4可以看出,Sigmoid函数和Teah函数均具有一定的连续性和可微性。但是Sigmoid函数在神经网络层数数量较多时,会出现梯度消失的情况,使得训练不能成功。而Teah函数为0均值,即该函数具有更优的效果。三种激活函数相比,Relu函数具有更快的收敛速度,不过利用该函数,会导致网络神经元脆弱;且当学习率较大时,网络中40%的神经元均不能激活数据。此次研究中,以期获得更快的训练速度,将利用Relu函数进行激活操作,并结合其他策略避免神经元坏死。

2.2 训练结果分析

将训练模型参数和数据集予以确定,且改进后的SDD模型训练次数总数为一万次,并在果蔬数据集上训练3万张图片。为规避出现拟合情况,将数据集中剩下的5000张图片作为最终模型的测试集。此次研究将前6000次迭代情况进行绘制,得到模型改进前后Loss值变化情况,结果如图5所示。

图5 不同迭代次数下LOSS值变化情况

图5中,改进前后模型在不同迭代次数下,Loss值变化情况差距较大。基础SDD模型在迭代3000次左右开始收敛,并于迭代5000次左右趋于平缓;而改进后的SDD模型在迭代1500次左右开始收敛,并于迭代3000次左右趋于平缓。同时,基础的SDD模型在迭代过程中迅速变小,而由于随着迭代次数的增加,通过拟合也会导致Loss值降低。故利用平均精度均值、IOU、准确率、召回率和FI对模型进行评估。

图6 参数变化情况

由于总共迭代已完成,且每迭代100次能够输出一次权重参数,故最后得到模型共100个。通过子图(a)可以看出,在迭代次数达到3000次后,平均精度均值趋于平缓,并不再出现明显变化。同时,发现在一万次迭代过程中,平均精度均值最大为86.46%,即选择此时的模型作为训练模型。而通过子图(b)可以看出,当置信度为0.45时,改进后的SDD模型具有较理想的准确率、召回率、FI值和IOU值,分别为93%,90%,90.95%和82.56%,能够符合此次果蔬采摘实验识别准确率的要求。故训练模型将置信度阈值设置为0.45时,能够使选择的模型具有更加优秀的效果。

3 结 语

果蔬能够补充人体需要的维生素等营养成分,我国果蔬种植面积巨大。由于存在较大的采摘困难,以及果蔬采摘劳动力需求较大,当错过合适的采摘时机将会直接影响果蔬的品质和种植者的经济效益,故利用采摘机器人采摘果蔬成为迫切需要。对果蔬的自动化和快速识别能够为果蔬采摘机器人提供必要的采摘信息,而为了提高自动化识别的准确率,采用SDD网络对果蔬进行实时检测。同时,为了便于对不同尺度的果蔬进行识别,对基础的SDD模型进行改进,得到改进后的SDD模型。实验结果表明,和基础SDD模型相比,改进后的SDD模型收敛速度更快,Loss值分别在迭代次数为1500次,3000次得到收敛。当置信度为0.45时,改进后的SDD模型的准确率、召回率、FI值和IOU值,分别为93%,90%,90.95%和82.56%,能够符合此次果蔬采摘实验识别准确率的要求。后续将对采摘机器人的路径规划进行研究。

猜你喜欢
果蔬准确率卷积
基于3D-Winograd的快速卷积算法设计及FPGA实现
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
奇思妙想的果蔬们
从滤波器理解卷积
高速公路车牌识别标识站准确率验证法
清洗果蔬农残 你做对了吗
这些果蔬能保护呼吸道
基于傅里叶域卷积表示的目标跟踪算法