2022 年山西农谷番茄小镇温室串番茄果实数据集

2024-01-11 10:40宋国柱石岩王建景超罗改芳孙胜王晓丽李一诺
关键词:番茄山西筛查

宋国柱,石岩,王建,景超,罗改芳,孙胜,王晓丽,李一诺

1.山西农业大学软件学院,山西太谷 030801

2.山西农业大学园艺学院,山西太谷 030801

3.中国农业科学院农业信息研究所,北京 100081

4.中国农业科学院国家南繁研究院,海南三亚 572024

引 言

我国是设施农业面积最大的国家。2020 年我国设施蔬菜种植面积达6150 万亩,其中番茄种植面积达1157.2 万亩,占设施蔬菜种植总面积的18.82%[1]。番茄采摘主要依靠人工完成,采摘费用为1.05×104 元/hm2,占生产总成本的33%~50%[2],劳动力投入占整个种植环节中的50%~70%[3]。

随着农业从业人口减少、规模化工厂化种植盛行,人工采摘难满足市场需求,严重制约我国番茄产业发展。番茄采摘机器人可提高生产力,缓解劳动力不足,降低劳动强度,改善舒适性,降低成本,促进经济效益提升,且有助于实现农业规模化、多样化、精准化生产,加速智能化设施农业发展。然而,番茄果实的快速高精度识别是提升机器人效率、可靠运行的关键技术。

山东农业大学李天华等[4]提出了一种基于YOLO v4 与HSV 相结合的识别方法,以实现自然环境下成熟期番茄的准确识别。实验将16%作为成熟期番茄识别算法的占比,其准确率为94.77%,从深度相机到检测到第一个目标番茄的时间为1.48 s。孙碧玉[5]提出了一种基于改进Cascade RCNN 网络的番茄果实目标检测技术,结果表明该技术可以准确地识别番茄果实,同时针对有遮挡的番茄提出了改进ENet 网络的成熟番茄串图像语义分割技术,为后续采摘点定位的研究提供了基础。

本文从研发具备采摘收获番茄功能的采摘机器人出发,通过拍摄、整理、筛查、标注、训练、验证测试等环节建立了能为机器学习建模提供训练、验证及测试样本的串番茄图像数据集。此次公开的数据集在不同时间段,从不同角度,使用不同型号手机对串番茄进行了多角度、多方位拍摄,为番茄采摘机器人视觉系统的高精度识别及可靠运行提供数据支撑,同时可供目标检测识别、采摘点定位、产量预测、数字孪生等研究领域的研究者使用。

1 数据采集和处理方法

串番茄数据集的获取过程主要涉及图像数据的拍摄、整理、筛查、标注、训练、验证及测试等环节。

1.1 数据采集方法

为便于分析串番茄的特性及提高训练模型的鲁棒性,采用多设备、多角度、多方位等进行图像数据采集。图像采集使用iPhone 13 Pro Max、华为P30、华为Nova 5z 及OPPO A91 手机进行拍摄,其分辨率最小为2736×3648 像素,最大为3000×4000 像素,同时设定拍摄方案为:

(1)以过串番茄果实且平行番茄垄、垂直地面的平面为基准面;

(2)正对串番茄果实以夹角10°、45°、90°、135°、170°各拍摄一张,如图1(a)所示;

图1 拍摄示意图Figure 1 Shooting diagram

(3)正对基准面45°俯视串番茄、往前绕串番茄45°、往后绕串番茄45°各拍摄一张,如图1(b)所示。

通过拍摄方案实现每串番茄拍摄8 张一套的图像数据。除了根据拍摄方案进行拍摄外,还拍摄了空白对比图像。所有图像均是在自然光照环境下拍摄的串番茄,也未经过任何后期处理。

1.2 数据处理方法

对拍摄的图像进行整理,剔除不符合要求的图像,如抖动导致图像模糊不清等,最终得到3665张图像。

使用LabelImg 开源软件对串番茄图像果实进行标注,标注存储格式为yolo 支持的TXT 文档,其标注方案为:

(1)一串番茄中果实全红或有1~2 颗果实带黄但不显示绿色则标注为成熟(mature),其余串番茄则标注为未成熟(raw);

(2)串番茄被枝蔓或叶遮挡,但能明显看出已成熟,则标注成熟被遮挡(cover);

(3)只标注图像中最近一垄上的串番茄,后面的不标注,对于图像中过远或过小的串番茄也不进行标注。

1.3 数据验证方法

对整理、筛查及标注出的3665 张图像按训练集、验证集及测试集进行随机分类,其比例为训练集:验证集:测试集=8:1:1,使用yolo 工具对其进行训练、验证及测试,实验结果的各项性能指标均有不同程度的提升,表明该串番茄数据集真实有效。

2 数据样本描述

串番茄图像数据样本为番茄维纳果,采集于山西省晋中市太谷区范村镇格子头村山西农谷番茄小镇。该地属于山西田森杜氏番茄科技有限公司番茄生产基地,目前有15 万平方米的全环境智能控制玻璃温室种植环境。

数据样本采集日期为2022 年7 月23 日至2022 年8 月10 日,分别在晴天、阴天,在不同时间段(早晨、上午、中午、下午和黄昏),从不同光位(顺光、逆光、顶光),使用不同型号手机对串番茄进行了多角度、多方位拍摄,经过整理共筛选出3665 张图像,其大小为5.31 GB。

串番茄图像数据存放在images 文件夹,使用LabelImg 软件标注生成的TXT 文件(含类别和anchor 的坐标)存放在labels 文件夹。

不同时间段(早晨、上午、中午、下午和黄昏)拍摄的串番茄图像如图2 所示。

图2 不同时间段拍摄的串番茄图像Figure 2 Images of cluster tomato taken in different time periods

顺光、逆光、顶光等不同光位拍摄的串番茄图像如图3 所示。

图3 不同光位拍摄的串番茄图像Figure 3 Images of cluster tomato taken at different light levels

不同角度、不同方位拍摄的串番茄图像如图4 所示。

图4 不同角度、不同方位拍摄的串番茄图像Figure 4 Images of cluster tomato taken from different angles and directions

3 数据质量控制和评估

串番茄图像数据采集于玻璃温室,培训后按规定要求进行图像拍摄,保证了图像数据的真实性和可靠性。采用高清手机对串番茄进行图像拍摄,并在特定时间内完成图像拍摄任务,图像格式为标准的JPG 格式。

在图像整理筛查过程中,采用人工核准的方式控制图像数据质量。在人工核准过程中,因抖动导致图像模糊,及其他原因导致图像不清晰等,则认为图像数据不符合标准,对其进行删除,对曝光过度或不足导致颜色过明、过暗的图像不做任何加工并予以保留。

对所有图像标注人员进行培训,建立统一的标注规范,督促其在标注过程中及时进行自查,全部数据标注完成后标注人员之间相互校对,对不规范的图像标注进行二次修正。

数据质量控制和评估流程如下:

(1)筛查阶段:开展初始数据合理性筛查,对异常图像进行删除操作;之后开展图像标注工作,在此基础上进行第二次合理性筛查,发现问题及时校对,并完成串番茄数据集质量评定。

(2)审查阶段:对串番茄图像及其标注数据进行合理性抽查,抽样比例不小于30%。

(3)验证阶段:对数据集按一定比例随机进行分类,使用yolo 工具对数据集进行训练测试,根据各项指标的结果,对串番茄数据质量进行有效评估。

4 数据价值

串番茄数据集为番茄采摘机器人的目标检测识别研究提供了数据支撑,便于进行更深度的学习训练,还可以构建适用于番茄不同成熟度的卷积神经网络模型,以进一步精准实现串番茄产量预测及成熟度采摘判定等研究。

串番茄图像数据集是提升番茄采摘机器人视觉系统识别精度的基础数据,是提高番茄采摘效率及可靠运行的基础保障,为后续相关的研究提供数据支撑。

数据作者分工职责

宋国柱(1977—),男,山西榆次人,硕士研究生,副教授,研究方向为番茄采摘机器人相关技术。主要承担工作:论文撰写及数据采集技术指导。

石 岩(1997—),女,山西山阴县人,在读硕士研究生,研究方向为目标检测识别。主要承担工作:论文撰写、数据采集整理、筛查、标注及验证。

王 建(1998—),女,内蒙古乌兰察布市化德县人,在读硕士研究生,研究方向为目标检测识别。主要承担工作:数据整理、筛查及标注。

景 超(1992—),男,山西长治人,在读博士研究生,讲师,研究方向为模式识别。主要承担工作:指导串番茄图像标注。

罗改芳(1993—),女,山西朔州人,硕士研究生,助教,研究方向为模式识别。主要承担工作:培训并指导研究生进行图像拍摄。

孙 胜(1977—),男,吉林榆树人,博士研究生,教授,研究方向为番茄育种及栽培技术。主要承担工作:番茄基地相关工作协调及番茄成熟度判定。

王晓丽(1982—),女,河北石家庄人,博士研究生,助理研究员,主要研究方向为科学数据管理。主要承担工作:数据整理和论文撰写。

李一诺(2001—),女,山西襄垣人,在读大学本科生。主要承担工作:串番茄图像标注。

猜你喜欢
番茄山西筛查
我在山西等你
点赞将“抑郁症筛查”纳入学生体检
番茄炒蛋
山西老陈醋保护有法可依
秋茬番茄“疑难杂症”如何挽救
山西:抓紧抓实春耕生产
预防宫颈癌,筛查怎么做
番茄果实“起棱”怎么办
山西叹五更
NRS2002和MNA-SF在COPD合并营养不良筛查中的应用价值比较