基于改进AlexNet的广域复杂环境下遮挡猕猴桃目标识别

2019-11-04 09:20穆龙涛高宗斌崔永杰刘浩洲傅隆生

农业机械学报 2019年10期

穆龙涛高宗斌崔永杰,2 李凯刘浩洲傅隆生,3

(1.西北农林科技大学机械与电子工程学院，陕西杨凌 712100； 2.农业农村部农业物联网重点实验室，陕西杨凌 712100；3.陕西省农业信息感知与智能服务重点实验室，陕西杨凌 712100)

0 引言

中国猕猴桃种植面积和总产量位居世界前列[1]，且经济效益高[2]，但目前多采用人工采摘收获，耗时且劳动力成本高[3-5]，亟待实现果实采摘的机械化与自动化。目前，国内外学者对果实采摘机器人进行了研究，但采摘效率较低[6-7]。要提高采摘效率，猕猴桃果实的精准识别定位尤为重要。由于猕猴桃果实在田间受不同天气(晴天、阴天)及不同光照强度变化的影响，且由于果实大小各异并存在枝叶或果实重叠遮挡等情况，对广域复杂环境中多目标果实的准确识别造成很大困难。因此，广域复杂环境下存在遮挡情况的多目标识别对提高机器人采摘效率并实现自动化及智能化具有重要意义。

针对棚架式栽培猕猴桃识别，多采用如Sobel边缘提取[8]、Hough变换[9]、构建颜色网络的识别分类器[10]、果萼特征识别[11]、K-means多目标识别[12]等传统图像处理方法，上述方法基于像素颜色、形状或纹理特征，主要针对近距离拍摄的小范围少量果实图像进行目标识别，对于单簇果实的识别效果较好。而对于广域复杂环境下所采集的猕猴桃果实图像中果实目标小且密集，其中包括多个果实簇，果实数量达30个以上，并且受光照强弱变化及枯枝叶遮挡情况的影响，易对图像成像品质产生较大影响，进而造成目标误识别与漏识别[13]。因此，需要对广域复杂环境下细小而密集型多目标果实的识别方法进行研究。

卷积神经网络(Convolutional neural network，CNN)对于农作物图像具有很好的分类和表征识别能力[14]。文献[15]使用LeNet提高了猕猴桃识别精度和速度，却未对枝叶遮挡或果实重叠遮挡所致的误识别或漏识别等问题进行研究。文献[16]提出一种SSD网络，对具有复杂特征的4种水果进行了目标识别。另外，文献[17]利用深度网络亦对复杂特征的不同种类水果进行了识别，均取得了较好的识别效果，但上述两种方法未能解决复杂环境下小而密集的多目标果实遮挡识别问题。文献[18]通过ResNet对疏果前苹果进行识别研究，取得了较高的识别精度，但存在漏识别现象。文献[19]采用YOLO v3来定位苹果目标，精度高且速度快，但该网络对密集的小目标检测效果不佳。除将YOLO检测网络用于图像识别以外，还有将Faster R-CNN应用于存在部分目标被遮挡情况的图像进行分类和识别方面[20]，如对污损指纹[21]和遮挡面部[22-23]等特征缺失图像的识别与分类。此外，CNN还被应用于作物病虫害检测及识别[24-25]、作物器官[26]和品种识别[27-28]、杂草识别及外形分级[29-30]等农业领域。尽管上述对CNN的研究解决了不同领域复杂图像中的目标检测存在耗时费力且精度较低等问题，但对于广域复杂环境下果实受叶片遮挡或果实相互遮挡情况下的小而密集的目标识别研究较少。研究表明，Faster R-CNN对图像中多个小而密集的目标识别效果较好[31]。另外，对比深度神经网络中LeNet、AlexNet、VGG16、ResNet18、YOLO等结构，AlexNet具有层数相对较少、参数少和所需计算资源低等优势，而简化网络结构对于网络在实际部署和应用中优化网络至关重要[31-32]。因此本文采用改进AlexNet为特征提取层的Faster R-CNN目标检测算法进行猕猴桃果实识别。

通过对猕猴桃果园实地环境进行调研后发现：猕猴桃果实呈簇生生长，且受枝叶遮挡及果实相互遮挡等情况约占26.4%。由此可见，对广域复杂环境下猕猴桃受枝叶遮挡或果实相互遮挡情况下的目标精准识别，成为研究的难点与关键。鉴于此，本文提出一种基于改进AlexNet的广域复杂环境下猕猴桃受枝叶遮挡或果实相互重叠遮挡的目标识别方法，以期解决此情况下目标漏识别和误识别等多目标识别与定位缺陷问题，为猕猴桃采摘机器人在田间复杂环境下高效精准作业奠定基础。

1 图像采集与识别方法

1.1 猕猴桃生长特点

本文试验样本数据库的图像采集地点选自陕西省秦岭北麓猕猴桃产区(34°7′39″N, 107°59′50″E, 海拔约648 m)西北农林科技大学(眉县)猕猴桃试验站，以海沃德猕猴桃作为本研究所需图像采集对象。海沃德猕猴桃以棚架式栽培为主，棚架高1.8 m，两行间距4.0 m，果实分布于棚架底部呈簇生且自然下垂式生长(图1)，该地区天气条件复杂多变，由于猕猴桃果实受枝叶遮挡且存在果实相互遮挡等情况，众多复杂因素对猕猴桃果实的精准识别造成较大影响，同时对猕猴桃采摘机器人的实地高效精准作业造成一定影响。

图1 猕猴桃的棚架栽培模式Fig.1 Scaffolding cultivation kiwifruit tree1.果实簇 2.果树 3.棚架

1.2 试验样本图像数据库

图像采集装置如图2所示，采用CCD(型号：Microsoft LifeCam)和Kinect v2传感器。将CCD和Kinect v2分别安装于三角架上，并与计算机相连(试验软件平台为LifeCam Studio 和 Kinect for windows SDK，硬件平台为Dell i5-8250U 1.80 GHz处理器，4 GB内存)，从棚架底部利用图2所示图像采集装置竖直向上对广域复杂环境下的多目标簇生猕猴桃果实进行图像采集，其中包括果实受枝叶遮挡或果实间相互遮挡的情况。另外，因果园地面平整度有差异，并非完全平整的硬质地面，因此为保证所采集图像的成像品质，每次进行图像采集时，均通过调整三脚架来确保相机处于水平位置且镜头距棚架平面下方(0.8±0.1) m处。此外，对于夜间环境下的图像采集均使用LED补光灯(CM-LED 1200HS型，KEMA Co.)提供光源以进行照明。

图2 猕猴桃图像采集装置Fig.2 Device of kiwifruit image acquisition with artificial light1.LED补光灯 2.相机 3.果实簇 4.计算机 5.小车

综合考虑天气及光照因素，于2018年9—10月对海沃德猕猴桃进行了图像采集。采集工作分别选择在2种不同天气(晴天、阴天)条件下进行，其中在晴天条件下采集图像时，重点考虑光照强度和角度变化，采集晴天逆光、晴天侧逆光2种条件下的猕猴桃图像。共采集晴天逆光(Sunny backlight，SB)、侧逆光(Sunny rembrandt light, SR)、阴天(Cloudy, CL)和夜间补光(Night with illumination, NI；光照强度为30～50 lx[4])4种类型样本图像共1 823幅(图3)，图像总共包含猕猴桃果实样本约为46 394个，并且4种类型的样本图像中均存在果实被非目标物(如枝叶)所遮挡或果实间相互遮挡等情况。将所采集样本统一设置为jpg格式的多尺度RGB图像(分辨率为640像素×360像素、640像素×480像素、1 920像素×1 080像素)，以避免因棚架高度不均匀造成的遮挡果实图像多样性的影响。由此建立试验样本数据库。

图3 广域复杂环境下采集的猕猴桃图像Fig.3 Complex kiwifruit images under far-view environment

在对4类图像进行采集的过程中，均需要考虑遮挡所造成的影响。由于部分果实生长位置所在平面距地面平均高度超过棚架平均高度而被棚架所遮挡，也有部分果实颜色与枯叶、枝干的灰暗色相近，上述2种情况均无法分辨果萼及果实轮廓，因此该情况的果实不易被识别。本研究对存在部分遮挡情况的果实目标(即轮廓不全的猕猴桃果实图像)随机选取并进行图像采集，其中包括枝叶遮挡(图4a)、光照及阴影遮挡(图4b)、果实重叠遮挡(图4c)、果实簇密集生长触碰遮挡(图4d)等情形，均归类为本文所表述的部分遮挡果实图像。

对所采集的1 823幅猕猴桃果实样本图像按照4种采集条件和4种遮挡类型情况分别进行数量统计，如表1所示。其中每种采集条件图像中均包含4类目标被遮挡情况。

本研究将试验样本数据库中的1 823幅猕猴桃样本图像，进行亮度、对比度调整，分别将亮度、对比度设置为60%、70%、80%、90%、110%、120%、130%、140%，并将高亮度设置为120%和140%。将试验样本进行数据增强(Data augmentation)，经扩充后，样本集图像数量增加到21 147幅。随机抽选65%的样本数据(15 132幅)作为训练集，剩余35%样本数据(6 015幅)作为测试集。其中训练集所有标签都经过人工标定，标定原则为：对训练集每一幅样本中的果实前景目标以最小外接矩形对其进行画框标定，包括前景目标轮廓不全的果实也将其进行画框标定，以保证果实特征标签训练的可靠性，避免偶然因素对网络训练及后期测试造成的影响。另外，为开展猕猴桃果园实地的果实目标现场识别试验，随机选取现场目标果实进行图像采集，将新采集的340幅图像用于实地现场识别验证。在具体识别检测试验中，图像数据集的多样性能够促进网络训练学习的有效性及网络泛化能力，提高果实目标的识别精度。

图4 不同遮挡类型的猕猴桃图像样本示例Fig.4 Examples of kiwifruit images with different occluded conditions

采集条件图像数量/幅遮挡图像数量/幅类型1类型2类型3类型4遮挡图像比例/%SB576497223826.39SR3683932151126.36CL5498218281726.41NI330560191226.36合计18232261228548

1.3 改进AlexNet的猕猴桃目标识别网络

1.3.1迁移学习

图5 基于改进AlexNet的Faster R-CNN网络结构Fig.5 Structure of faster R-CNN model with AlexNet

AlexNet的全连接层的作用是进行分类判别[33-34]，利用卷积层对训练集图像提取到的特征来判断所识别测试集图像中的特征区域属于猕猴桃果实区域还是属于背景区域[35]。由于迁移学习可提高网络识别精度，因此，通过迁移学习将AlexNet预训练得到的权重用于猕猴桃果实目标的检测，保留原网络的卷积层，同时对全连接层参数进行调整。利用提取的特征，可将猕猴桃识别检测视为区分果实与背景的一个二分类问题(1属于猕猴桃，0属于背景)。并通过对AlexNet网络的L6～L8的全连接层参数、训练参数和防止过拟合(Dropout)的参数进行微调，能够提高果实的识别精度。本研究对Faster R-CNN网络中的AlexNet特征提取层进行改进，其网络结构如图5所示。

神经网络输出层公式为

(1)

式中i——输入单元序号

j——隐含层序号

d——滤波器个数

l——网络层序号

由于改进AlexNet的输出与原图尺寸相同，因此通过对L6、L7进行设置来降低特征维度，使其输出尺寸和原图一致，输出层则采用ReLU函数作为激活函数，其函数表达式为

(2)

对改进AlexNet进行训练，为使训练精确度更高，损失函数采用二次均方误差函数(Mean squared squared error，MSSE)，其函数表达式为

(3)

式中ω——权重Y(i)——原始值

|Y|——样本个数

1.3.2Im-AlexNet结构

AlexNet网络的卷积核尺寸、数量及步长对于网络识别精度影响显著，为避免过拟合和训练速度减慢，仅以检测猕猴桃果实特征为主，并对AlexNet网络结构进行改进：保留AlexNet前5个卷积层，去除所有全连接层。并对网络进行调参，通过将AlexNet中L6、L7的全连接层参数从24～214依次设置进行多轮训练，并将L6、L7全连接层在不同参数设置下的网络识别精度(Average precision，AP)VAP进行对比，识别精度在不同参数设置下的统计结果，如表2所示。经对测试集进行试验得出，当AlexNet中的全连接层L6、L7的节点数为768和256时，改进的AlexNet对猕猴桃果实识别精度最高。

表2 全连接层参数微调测试及对应识别精度Tab.2 Fine-tuning full connection layer parameters and recognition results

由于卷积层的作用是提取图像特征，从浅层卷积层对边缘、颜色等底层特征的提取到深层卷积层对目标高级特征的提取过程中，通过保留卷积层和预训练权重，可使网络收敛更快，提取目标特征更容易，因此本研究并未对AlexNet网络的卷积层参数进行改动设置。其中，所保留的AlexNet第1层卷积核大小为11×11×3；第2层卷积核大小为5×5×48，与原网络的卷积层设置一致[35-36]。因此可知，用于猕猴桃识别的改进AlexNet包括5个卷积层、2个全连接层和1个输出层。由于考虑到猕猴桃果实识别属于二分类问题，将最后一个全连接层参数设置为2。并将改进的AlexNet网络命名为Im-AlexNet。网络结构修改调整后的具体网络参数配置如表3所示。

表3 Im-AlexNet网络结构的参数设置Tab.3 Parameters of Im-AlexNet model

2 猕猴桃识别试验

2.1 训练处理平台

选用艮泰SP16HDIET深度学习计算模拟机作为训练处理平台，处理器为Intel Xeon E5-1650 v4，主频为3.6 GHz；32 GB内存；显卡为Nvidia TITAN XP(GPU)，12 GB GDRR5显存；2TB 7200RPM SATA硬盘。使用的深度学习软件为Matlab 2018a，Deep learning toolbox model for AlexNet network，支持GPU运算。

2.2 网络训练

根据表3所示网络结构进行参数设置后，对候选区域网络(Region proposal network，RPN)进行多轮训练并进行测试试验。具体训练过程中，将起始学习率(Learning rate)设为0.001，每批图像数量设置为64，动量(Momentum)设置为0.9，权值衰减(Decay)设置为0.000 5，最大迭代次数设置为60次；并在L6、L7全连接层中加入Dropout层，以确保每层提取特征的相互独立，同时将防止过拟合Dropout设置为0.4，此时网络的识别精度较高。Im-AlexNet最终输出为猕猴桃目标果实的识别结果，为提高猕猴桃目标的识别精度，本研究仅保留置信度大于0.85的目标。为验证本研究所提算法的有效性，在与上述参数配置相同情况下，对LeNet、AlexNet和VGG16网络进行识别测试验证，并对识别结果进行数据统计。

2.3 评价指标

为验证本研究所提识别方法的性能优越性，用AP对Im-AlexNet网络的识别性能进行评价，AP是PR曲线在准确率基础上对召回率的积分[36]。评价指标为

(4)

(5)

(6)

式中P——准确率R——召回率

TP——算法正确识别的猕猴桃数量

FP——将背景误识别为猕猴桃的数量

FN——未识别到的猕猴桃数量

3 结果与讨论

3.1 训练误差率

利用Im-AlexNet对训练集进行训练，共分为4步，损失函数(Loss function)每一步训练采用60次迭代运算，4步训练的损失函数值变化曲线如图6所示。

图6 猕猴桃样本训练损失函数值变化曲线Fig.6 Loss changing curves of training using Im-AlexNet

由图6可看出，第1步使用ImageNet网络初始化，独立训练一个RPN网络，训练迭代次数(Epochs)由0次逐渐增加到60次的过程中，损失函数值由0.85降至0.35；第2步继续使用ImageNet，将上一步RPN网络产生的候选框(Proposal)作为输入，训练一个Fast R-CNN网络，训练迭代由0次逐渐增加到60次的过程中，损失函数值由0.90降至0.63；第3步使用第2步的Fast R-CNN参数初始化一个新的RPN网络，并将其共享卷积层的学习率设置为0，仅更新RPN特有的网络层，重新训练两个网络已共享的所有公共卷积层，训练迭代由0次逐渐增加到60次的过程中，损失函数值由0.65降至0.41；第4步保持共享的卷积层固定，微调Fast R-CNN的全连接层，训练迭代由0次逐渐增加到60次的过程中，损失函数值由0.72降至0.61。此时，网络内部预测Proposal并实现猕猴桃果实的目标检测。通过数据分析，从图6整体来看，随迭代次数不断增加，训练集和验证集的分类误差基本呈逐渐降低趋势，训练损失基本收敛到稳定值，表明Im-AlexNet基本达到了预期的训练效果。

3.2 测试集试验结果

利用LeNet、AlexNet、VGG16和Im-AlexNet分别对试验样本数据库中筛选出的包含4类采集条件的图像训练集进行标记并进行交叉训练，验证测试集中所包含的4类采集条件图像测试集的识别精度。其中，4种网络分别对4种不同类型图像的识别精度统计结果如表4所示。

表4 不同网络识别猕猴桃图像试验结果Tab.4 Recognition results of kiwifruit used different networks

3.2.1不同光照条件下的识别结果

由表4可知，Im-AlexNet对4种类型的样本图像识别精度明显高于LeNet、AlexNet和VGG16，Im-AlexNet识别精度比LeNet、AlexNet和VGG16 3种网络识别精度的平均值高出5.74个百分点。其中夜间和晴天侧逆光条件下的图像识别精度较高，对于晴天逆光条件下的图像识别精度较低，由此说明光照变化对于图像成像品质影响较大，当光照强度过大且不均匀时易形成逆光条件，逆光、光照强度对于图像识别精度有较大影响。

使用准确率-召回率曲线来凸显分类器在准确率与召回率间的权衡关系。Im-AlexNet对猕猴桃目标识别的准确率-召回率曲线如图7所示。

图7 Im-AlexNet的准确率-召回率曲线Fig.7 Precision-recall curves of Im-AlexNet

由图7可得出，所选择网络在召回率增长的同时，准确率保持在一个较高的水平，说明Im-AlexNet对于多目标猕猴桃果实的识别精度较高，识别精度为96.00%。为保证本研究所提出Im-AlexNet与LeNet、AlexNet和VGG16 3种网络对比论证的科学严谨性，均选用相同采集条件下所获取的遮挡情况相同、背景一致、曝光程度相同的同类型图像进行目标识别检测试验(以SR图像为例)，其关于4种网络对测试集图像的识别结果实例，如图8所示。由图8可看出，相较于LeNet、AlexNet和VGG16，本研究所提出的Im-AlexNet对猕猴桃果实的目标识别精度更高，漏识别和误识别情况较少，而LeNet、AlexNet和VGG16在对测试集图像进行目标检测的识别过程中，目标漏识别率和误识别率较高(图8中红框的标记位置为算法识别的结果，黄色框的标记位置为漏识别和误识别果实)。由此可知，Im-AlexNet能够克服田间环境变化对图像成像品质的影响，对于猕猴桃目标果实的精准识别性能更加优良。

图8 4种网络对猕猴桃果实图像的识别结果对比Fig.8 Comparison of kiwifruit recognition results used four networks

3.2.2存在遮挡情况下的识别结果

将试验样本数据库中(表1)的遮挡样本作为测试集，利用LeNet、AlexNet、VGG16、Im-AlexNet网络进行目标识别验证，试验结果表明对广域复杂环境下存在遮挡情况的4类猕猴桃果实图像的目标识别精度分别为83.01%、89.36%、89.52%、94.75%。可明显看出该Im-AlexNet网络对于广域复杂环境下果实遮挡情况的识别精度明显优于LeNet、AlexNet和VGG16 3种网络，由此可证明该算法能够降低对猕猴桃果实遮挡情况下的漏识别率与误识别率，并能够提高对目标果实的识别精度，亦证明本研究所提出的Im-AlexNet能够应用于猕猴桃采摘机器人对广域复杂环境下存在遮挡情况的目标果实识别。

3.3 田间识别试验结果

3.3.1不同光照条件下的识别结果

针对广域复杂环境下生长的猕猴桃，将上述经过样本标记训练后的Im-AlexNet应用于采摘机器人视觉识别模块(Kinect v2和软件Matlab 2018a)和便携计算机(Dell i5-8250U)，对实地果园环境中的猕猴桃果实进行检测识别与目标验证，并将目标检测所获取的用以验证实地大田环境下采摘机器人视觉识别模块性能的340幅(果实数量为10 177个)验证图像建立试验集，其中包括晴天逆光(图9a)、晴天侧逆光(图9b)、阴天(图9c)、夜间补光(图9d)4类图像。利用采摘机器人的视觉识别模块对验证集进行目标识别验证，具体识别统计结果如表5所示。

由表5可知，Im-AlexNet对于猕猴桃果实目标具有较好的识别效果，对4类图像的识别精度的平均值为(96.00±0.16)%。经统计，该网络对4种类型图像的正确识别果实总数为9 804个，漏识别果实总数为373个，误识别果实总数为403个，其中，对晴天逆光和侧逆光类型图像的果实误识别情况较严重，误识别果实总数达到335个，明显高于阴天和夜间补光2种类型图像，造成误识别的主要原因是受自然光的影响，因强光照射使得采摘机器人视觉识别模块所获取图像中目标前景特征与背景区分不明显或因异物遮挡果实所致。

本文识别方法对4种类型图像的目标识别检测示例如图9所示，图中1、2、3表示逆光(阴影)、被枝叶遮挡、果实簇重叠遮挡情况，4、5表示漏识别和误识别的情况。由图9可明显看出Im-AlexNet网络能够对广域复杂环境下包括晴天逆光、晴天侧逆光、阴天、夜间补光的4类猕猴桃果实图像的前景目标进行有效准确识别。另外，将所得图像识别结果中被标定框标记锁定的目标果实位置设为(xi,yi,wi,hi)，其平面坐标中心点则作为机器人末端执行器对该目标果实的采摘抓取位置，并且果实果萼的位置坐标误差，在采摘机器人末端执行器的容差范围内(25 mm)[37]。因此，该网络对目标果实的识别精度和定位精度均满足猕猴桃采摘机器人的要求。试验结果表明，Im-AlexNet网络泛化性较好，满足猕猴桃采摘机器人在实际生产中对视觉系统识别精度与识别速度的要求。

图9 不同光照条件下猕猴桃果实识别结果示例Fig.9 Recognition results examples of kiwifruit under different illuminations

序号图像类型实际果实数量/个正确识别果实数误识别果实数漏识别果实数VAP/%识别时间/s单幅图像平均果实数量/个1SB16681574379494.39±0.111.07422SR3125300529812096.87±0.211.10303CL13001229627194.91±0.191.02224NI4084399668897.83±0.141.0854合计101779804403373平均96.00±0.161.0737

3.3.2存在遮挡情况下的识别结果

本研究重点对验证集图像中的遮挡情况进行分析讨论，并利用Im-AlexNet网络对存在遮挡情况(表1，共4种类型)的果实目标进行识别验证。通过分析可知，遮挡情况主要由于逆光拍摄造成光影遮挡(图9a)，致使目标果实与背景不易区分，导致识别率降低；另外，由于猕猴桃呈现簇生密集生长(图9b、9c)，使得在对广域范围内的猕猴桃果实进行图像采集时，获取到的目标前景特征多为小而密集目标，而所采集图像中仅存在单个或稀疏少量果实前景目标的情况占极少数，因此，易导致对目标果实的识别精度有所降低。通过Im-AlexNet对存在上述遮挡情况的图像进行目标检测识别，识别结果表明，Im-AlexNet网络能够克服因果实部分遮挡对识别所造成的影响(图9a、9c)，但亦存在因果实簇间相互重叠遮挡所致的被遮挡果实漏识别情况的发生(图9b、9d)，同时也存在果实被枯枝叶所遮挡而导致果实误识别的情况(图9c)。

4 讨论

较其他识别方法而言，本文所提出的识别方法性能优越。在有关目标识别的研究当中，文献[15]用LeNet网络对猕猴桃的识别精度为89.29%，而本研究采用的Im-AlexNet识别精度达到96.00%，比LeNet网络识别率高出6.71个百分点；文献[16]所提出4种果实的SSD网络识别方法对无遮挡情况下单簇果实图像识别精度较高，但对于多簇果实图像的识别精度并未做研究说明。同时，在识别精度相同的情况下，本文所提出的基于Im-AlexNet网络的多目标果实识别方法，在对单幅图像进行目标识别时，识别率远高于文献[16]所提方法，而对图像中单果识别时间远快于文献[16]所提方法。文献[18]R_FCN网络对疏果前苹果与绿叶背景相近的目标特征检测识别进行了研究，取得了一定成效，但存在漏识别的现象。与文献[19]所采用的YOLO v3网络相比，该网络对于密集且小的猕猴桃目标检测效果不佳。本文采用的Im-AlexNet识别率较高，能够克服光照变化、枝叶遮挡对图像识别精度造成的影响，减少了误识别、漏识别果实的数量。该方法具有较好的可操控性和实用性，且对网络进行了精简，便于植入到移动端，能够满足猕猴桃采摘机器人果园移动式作业的需求。本研究通过对AlexNet网络进行改进，通过迁移学习对AlexNet网络当中的全连接层节点数量进行微调，有效解决了晴天逆光、晴天侧逆光、阴天和夜间补光4种条件下有遮挡情况存在的猕猴桃果实目标识别精度较低的问题。且将Im-AlexNet 、LeNet、AlexNet和VGG16网络的识别精度进行对比，Im-AlexNet的识别精度较高(表4)。此外，文中并未选择使用如Faster R-CNN(VGG19，ResNet)、YOLO v3等类型的深层网络，其主要原因是该网络较大，无法被植入移动端控制器当中，降低了CNN在猕猴桃采摘机器人视觉系统实际应用中的性价比。

5 结论

(1)针对猕猴桃采摘机器人信息感知单元对存在遮挡情况下的目标果实识别精度较低等问题，提出一种基于Im-AlexNet网络的广域复杂环境遮挡情况下的多目标果实识别方法。利用Im-AlexNet网络实现对4类猕猴桃果实的图像识别，识别精度为96.00%，单幅图像识别时间约为1 s。满足猕猴桃采摘机器人在实际生产中对视觉系统识别精度及识别速度的要求。

(2)提出的Im-AlexNet降低了网络复杂程度，通过减少全连接层参数而压缩了网络，减少了计算量，对于广域复杂环境下存在遮挡情况的猕猴桃果实图像的目标识别精度有较大提高。

(3)利用搭建的猕猴桃采摘机器人试验平台，对实地田间生长的猕猴桃果实进行了识别测试，结果表明，本文提出的以Im-AlexNet为特征提取层的Faster R-CNN网络，相比其他网络具有更高的识别精度。本研究为多机械手采摘机器人协同作业任务分配方法的研究奠定了基础，同时也促进了猕猴桃采摘机器人工作效率的提高。