30 年来基于计算机视觉的农业科技研究综述*
——以CNKI 文献关键词词频分析为技术方法

2024-03-22 09:05冯祥胜
南方农机 2024年6期
关键词:条数神经网络计算机

巢 品 ,冯祥胜

(南昌工程学院信息工程学院,江西 南昌 330099)

计算机视觉(Computer Vision, CV)是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等,并将其处理成为更适合人眼观察或传送给仪器检测的图像[1]。计算机视觉自20 世纪60 年代中期发展起来,目前已能在相当程度上模拟人类视觉的优越能力,并在一定程度上弥补人类视觉的缺陷,所以被广泛应用于天文学、地质学、气象学、军事科学、医学、工农业生产等诸多领域。我国是农业大国,农业科技是农业发展的强劲引擎,农业科技研究一直是我国学术研究的重要领域之一。计算机视觉与农业科技研究的交叉,或者说基于计算机视觉的农业科技研究,也形成了较为丰厚的研究成果。在中国知网(CNKI)中,王金满等联合署名发表在《东北林业大学学报》1993 年第2 期的《木材构造计算机视觉分析方法》[2],是基于计算机视觉的农业科技研究的最早文献。以此算来,我国基于计算机视觉的农业科技研究已有30 多年的历史。关键词词频分析法,是通过关键词在某研究领域文献中出现的频次高低来揭示该领域研究热点、动态及进展的文献计量方法[3]。这种分析方法虽然是一种搁置了内容和意义的形式分析,但也是一种超越了个人经验和主观偏好而趋向客观性的学术分析方法[4]。基于此,本文试图以关键词词频分析为技术方法,综述国内30 年来基于计算机视觉的农业科技研究成果,以期为后续研究提供一定参考或借鉴。

1 文献数据来源及总体样态

本研究文献数据检索于中国知网(CNKI)。一般认为,以“篇名”为检索项进行文献检索获得的文献更具有直接相关性[5]。2023 年2 月26 日,在中国知网(CNKI)中,通过高级检索功能,以“计算机视觉”为题名,文献分类选定为“农业科技”专辑,时间范围以2022 年12 月31 日为终止时间(不设定起点时间),共检索到264 条学术期刊中文文献及129 条学位论文中文文献,两类文献合计393 条。经系统的主题阅读,这393 条文献中没有会议纪要、课题成果介绍、书评等无效文献,均为有效文献。这393 条文献即为本文的研究样本。

根据CNKI 对文献作出的分类,农业科技这一专辑包含农业基础科学、农业工程、农艺学、植物保护、农作物、园艺、林业、畜牧与动物医学、蚕蜂与野生动物保护、水产和渔业10 个专题。CNKI 显示,这10个专题均有一定文献,具体为:农业基础科学82 条、农业工程45 条、农艺学8 条、植物保护53 条、农作物72 条、园艺76 条、林业21 条、畜牧与动物医学33 条、蚕蜂与野生动物保护5 条、水产和渔业48 条。因为有些文献被归类到2 个或2 个以上专题,所以10 个专题的文献累计条数多于393 条。这说明现有研究已涉及农业科技这一专辑的各个专题,但相对而言,农业基础科学、农作物、园艺这3 个专题的研究较多,农艺学、蚕蜂与野生动物保护这2个专题的研究则较少。

各年度文献条数如下:1993(1)、1994(0)、1995(2)、1996(3)、1997(2)、1998(3)、1999(3)、2000(3)、2001(2)、2002(2)、2003(8)、2004(4)、2005(22)、2006(5)、2007(12)、2008(8)、2009(9)、2010(6)、2011(10)、2012(7)、2013(13)、2014(8)、2015(13)、2016(16)、2017(32)、2018(35)、2019(47)、2020(44)、2021(37)、2022(36)。括号前数据为年份,括号内数据为文献数目,下文相同。由此可见,1993—2004 年,除2003 年文献条数为8 条外,其他各年度文献条数均不超过4 条;2005 年文献条数有突发性的增长,从2004 年的4 条陡然增长到2005 年的22条,但2006 年又回落到5 条;2007—2016 年各年度文献条数在6~16 条之间,有一定波动,但总体而言高于1993—2004年各年度文献条数;2017—2022年各年度文献均在30 条以上。经分析,2005 年文献条数有突发性的增长,可能与我国延续数千年的农业税在该年度被废除有关,农业税的废除不只是体现了党和国家对广大农民的爱护和关怀,引发了社会各界对农业、农村、农民的关注,也引发了学界对农业科技的关注。2017 年文献条数较多,并一直延续到现在,则是因为2016年AlphaGo打败世界顶级围棋棋手李世石,引发了人工智能研究的热潮,计算机视觉作为人工智能的重要领域之一,理所当然也得到了更多学者的关注。

2 基于计算机视觉的农业科技研究高频关键词词频统计

关键词出现频次的高低,反映该关键词所指向问题的受关注程度,高频关键词表征该领域研究热点问题所在。按393 条文献作者所给出的关键词进行统计,共获得961 个关键词,累计出现频次为1 753 次,篇均4.46 次。本文的研究对象是基于计算机视觉的农业科技,“计算机视觉”(包括“计算机视觉法”“计算机视觉技术”等)毫无疑问出现频次最高,共出现301 次。因此,为减少叙述上的重复,本文此后所说的高频关键词不再涉及“计算机视觉”。本文按照高频关键词选择的标准——高频词累计频次达到总频次的40%左右[6],得到高频关键词32 个(词频≥5),具体情况如表1所示。

表1 1993—2022年基于计算机视觉的农业科技研究高频关键词

由表1 可知,基于计算机视觉的农业科技研究高频关键词分布较为广泛,说明现有研究热点较多。为更清晰显示现有研究热点的类别,本文参照张勤等[7]的关键词分类方法,结合本研究的实际情况,对高频关键词进行应用属性、方法属性、技术属性3 个方面的属性分类,结果如表2 所示。由表2 可知,现有基于计算机视觉的农业科技研究在应用属性方面的高频关键词有“水产养殖”“水稻”“农业”“棉花”“农业自动化”“番茄”“芒果”“农业生产”“农业工程”“苹果”10 个,这表征的是计算机视觉主要在农业科技哪些领域获得应用;在方法属性方面的高频关键词有“图像处理”“特征提取”“图像分割”“目标检测”“检测”“图像识别”“分级”“识别”“行为识别”“品质检测”“采摘机器人”“模型”“品质”“颜色特征”“纹理特征”15 个,这表征的是计算机视觉主要通过哪些研究方法应用在农业科技领域中;在技术属性方面的高频关键词有“深度学习”“支持向量机”“卷积神经网络”“神经网络”“BP 神经网络”“人工神经网络”“机器学习”7 个,这表征的是计算机视觉主要是哪些技术被应用于农业科技领域。

表2 1993—2022 年基于计算机视觉的农业科技研究高频关键词属性分布

3 基于计算机视觉的农业科技研究纵向观察

为显示该领域研究的纵向发展脉络,本文将近30 年的文献划分为3 个时段,即1993—2002 年、2003—2012 年、2013—2022 年。这3 个时段的文献条数分别为21 条、91 条、281 条,可见该领域研究在稳步发展。

按高频词选择标准分别统计各个时段的高频关键词,结果如表3 所示。由表3 可知,1993—2002 年高频关键词共有5 个,其中在应用属性方面的高频关键词有“梨”和“木材构造”,在方法属性方面的高频关键词有“图像处理”和“特征提取”,在技术属性方面的高频关键词有“人工神经网络”;2003—2012年高频关键词共有15 个,其中在应用属性方面的高频关键词有“农业工程”“番茄”“水产养殖”“鱼类行为”,在方法属性方面的高频关键词有“图像处理”“检测”“识别”“分级”“特征提取”“颜色特征”“图像分割”“颜色”,在技术属性方面的高频关键词有“BP 神经网络”“人工神经网络”“神经网络”;2013—2022 年高频关键词共有22 个,其中在应用属性方面的高频关键词有“水产养殖”“水稻”“棉花”“农业”“芒果”“农业生产”“农业自动化”,在方法属性方面的高频关键词有“图像处理”“图像分割”“特征提取”“目标检测”“图像识别”“行为识别”“检测”“采摘机器人”“分级”“模型”,在技术属性方面的高频关键词有“深度学习”“支持向量机”“神经网络”“卷积神经网络”“机器学习”。由此可见,无论是分别从应用属性、方法属性、技术属性来看,还是综合从这三个属性来看,基于计算机视觉的农业科技研究都在不断丰富和拓展。

表3 基于计算机视觉的农业科技研究各时段高频关键词

4 基于计算机视觉的农业科技研究横向观察

横向观察是指在某特定时间内对若干个对象同时进行观察记录,将观察结果进行比较,从而全面了解被观察对象的一种观察方法。为了达到对基于计算机视觉的农业科技研究横向观察的目的,本文参照董瑞兰、周爱民等对关键词作出的划分[8-9],结合本研究实际情况,将关键词分为恒星关键词、流星关键词、新星关键词、卫星关键词、彗星关键词共5 类。其中,恒星关键词是指在1993—2002年、2003—2012年、2013—2022 年三个时段均出现,频次较高且相对稳定的关键词;流星关键词是指在1993—2002 年和(或)2003—2012 年出现且频次较高,而在2013—2022 年时段中频次明显减少甚至频次为0 的关键词;新星关键词是指在1993—2002 年和2003—2012 年两个时段中出现频次很低,但在2013—2022 年时段中频次突增的关键词;卫星关键词是指在1993—2002年时段中出现频次较高,在2003—2012 年时段中出现频次较低,在2013—2022 年时段中出现频次又较高的关键词(就像卫星运行一样,开始在某轨道运行速度很快,但为了转到另一轨道运行,需要减速变轨,变轨完成后速度就会再次提升);彗星关键词是指在三个时段的某一时段出现过,但频次极低的关键词。对961个关键词一一分析统计,得到结果如下。

恒星关键词:“图像处理”“特征提取”。这表明“图像处理”和“特征提取”一直是该领域的研究热点,或者说这是该领域的恒定选题。

流星关键词:“木材构造”“人工神经网络”“农业工程”“颜色”“梨”。这几个关键词成为流星关键词的原因分析如下:1)“木材构造”对木材的研究较为细化,实际上之后关于木材的研究还有多项,但关键词不是“木材构造”,而是“木材”“木材识别”“木材检尺”“木材生长轮材质分析”“原木材积”等;2)“人工神经网络”指称较为广泛,因此被更为具体的“BP 神经网络”“卷积神经网络”等取代;3)“农业工程”也是指称较为广泛,因此在之后的研究中被细化为“农业生产”“农业自动化”等;4)“颜色”研究指向不明,因此在之后的研究中被有明确所指的“颜色特征”“颜色模型”“叶面颜色”“果实表面颜色”“食物颜色”“背景颜色”“颜色分级”“颜色空间”等取代;5)“梨”的品种指向不明,因此在之后的研究中被“砀山酥梨”“库尔勒香梨”等取代。因此,这几个流星关键词的存在,并不是说这几个关键词所指向的问题真的不再有人关注了。

新星关键词:“深度学习”“支持向量机”“卷积神经网络”“目标检测”“图像识别”“神经网络”“水稻”“行为识别”“棉花”“农业”“采摘机器人”“机器学习”“芒果”“模型”“农业生产”“农业自动化”等。新星关键词越多,表明该研究领域在不断涌现新的研究热点。

卫星关键词:无。表明该领域研究所关注的问题在研究方面整体上都在稳步发展,也就是说,没有哪个问题在兴起研究热潮之后,有暂时性的退潮,之后又再一次地进入研究热潮。

彗星关键词:共有781 个关键词在1993—2022年仅出现1 次,可认为是该研究领域的彗星关键词,比如“3D”“‘次郎’甜柿”“Bayes 判别”“COMS 传感器”“DS 融合理论程序”“Fisher 向量”“摆尾频率”“跛行奶牛”“成熟番茄识别”等。彗星关键词多,说明现有研究主要是拓展性的研究,包括在研究领域、研究方法、研究技术等多方面的拓展,而不是在已有研究基础之上的提升研究。当然,课题组发现也有一些彗星关键词是文献作者命名不规范所致。

5 基于计算机视觉的农业科技研究高质量观察

所有的学术文献均有一定的学术价值,但学术文献的学术价值也存在一定的差异。学界在考查文献质量高低的时候,文献的被引用情况被作为一项重要观察指标。具体而言,就是具有更高引用频次的学术论文即高被引论文,具有更高的学术价值。考虑到本次检索到的文献只有393 条,如果按照通行的高被引论文的标准——某一领域被引频次位于该领域所有论文前1%的论文,则只有4 篇论文能作为高被引论文,所以本文参考张垒[10]的做法,适当降低高被引论文的标准,将被引频次位于前3%的论文作为高被引论文。表4 列出了按此标注检索出的12 篇高被引论文。

表4 基于计算机视觉的农业科技研究高被引论文及其关键词

综合表4 和表1 来看,高被引论文中有7 条文献(即第1、2、3、5、6、7、8 条)的关键词,包含1~2 个1993—2022 年时段的高频关键词,说明这些文献极有可能是因为抓住了研究热点,所以之后研究这些问题的学者因为“热点”而参阅并引用这些文献;但是,也有5 条文献(即第4、9、10、11、12 条)的关键词,并没有出现1993—2022 年时段的高频关键词,说明这些文献不是抓住了研究热点,而是因为其他原因,比如优秀的实验设计、严谨的理论建构等,而被其他研究者参阅并引用。当然,抓住了研究热点的高被引论文,也有可能同时具有优秀的实验设计、严谨的理论建构等特点。

6 结论

让数据说话——这是本文的基本立场。本文以CNKI 文献关键词词频分析为技术方法,综述30 年来基于计算机视觉的农业科技研究,发现了以下有意义的事实:

1)现有研究主要在“水产养殖”“水稻”“农业”“棉花”“农业自动化”“番茄”“芒果”“农业生产”“农业工程”“苹果”等应用领域展开;

2)现有研究论及的基于计算机视觉的农业科技研究方法关键词主要有“图像处理”“特征提取”“图像分割”“目标检测”“检测”“图像识别”“分级”“识别”“行为识别”“品质检测”“采摘机器人”“模型”“品质”“颜色特征”“纹理特征”等;

3)现有研究主要探讨了“深度学习”“支持向量机”“卷积神经网络”“神经网络”“BP 神经网络”“人工神经网络”“机器学习”等计算机视觉技术在农业科技领域的应用;

4)无论是分别从应用属性、方法属性、技术属性来看,还是综合从这三个属性来看,基于计算机视觉的农业科技研究都在不断丰富和拓展;

5)“图像处理”和“特征提取”是基于计算机视觉的农业科技研究的恒定选题;

6)基于计算机视觉的农业科技研究新的研究热点有“深度学习”“支持向量机”“卷积神经网络”“目标检测”“图像识别”“神经网络”“水稻”“行为识别”“棉花”“农业”“采摘机器人”“机器学习”“芒果”“模型”“农业生产”“农业自动化”等;

7)现有基于计算机视觉的农业科技研究主要是拓展性的研究,包括在研究领域、研究方法、研究技术等多方面的拓展,而不是在已有研究基础之上的提升研究;

8)现有基于计算机视觉的农业科技研究的高被引论文,只有部分有可能是因为抓住了研究热点,从而被后续研究者因为“热点”而参阅并引用。

需要说明的是,尽管本文所获得的结论较为客观、真实、可靠,但也依然存在一定缺陷,主要在于:本文采用的技术方法是文献计量分析中的关键词词频分析,这种技术因为搁置了对文献内容和意义的分析,从而没有揭示出可能存在于基于计算机视觉的农业科技研究中的内在发展逻辑、深层理论关系等。因此,本文所获得的结论还有待于未搁置文献内容和意义分析的综述性文献予以印证。

猜你喜欢
条数神经网络计算机
计算机操作系统
基于计算机自然语言处理的机器翻译技术应用与简介
神经网络抑制无线通信干扰探究
巧算金鱼条数
信息系统审计中计算机审计的应用
人民网、新华网、中国非公企业党建网两新党建报道条数排行
对多边形对角线条数的探究
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
每只小猫给了猫妈妈几条鱼