基于近红外光谱技术的空苞山核桃快速识别

2024-03-12 03:25俞储泽翁定康曹烁森
中国食品学报 2024年2期
关键词:山核桃波长预处理

俞储泽,翁定康,曹烁森,孙 通

(浙江农林大学光机电工程学院 杭州 311300)

山核桃(Carya cathayensis Sarg)是胡桃科山核桃属乔木植物,有18 个种、3 个变种,广泛分布在亚洲、欧洲和美洲,其果实是我国著名干果[1-2]。在我国,浙江临安和安徽宁国是山核桃主产区,年产量接近全国的90%[2-3]。山核桃品质优良,果仁中含有丰富的蛋白质、脂肪和多种微量元素,营养价值高,深受人们的喜爱[4]。在山核桃生长过程中,有部分果实没有果仁或者果仁发育受阻,这种现象被称为“空苞现象”,引起“空苞”的原因包括环境不适、授粉不良、营养缺乏和结果过多等[5]。根据GB/T 24307-2009《山核桃产品质量等级》,瘪籽率和半籽粒率≤1%且无空籽为特级山核桃,瘪籽率和半籽粒率≤2%且无空籽为一级山核桃,瘪籽率和半籽粒率≤3%且无空籽为二级山核桃。"空苞"现象的发生严重影响山核桃产品的品质。有效剔除空苞山核桃,将有利于提升山核桃的整体品质和提高其市场售价,保障种植户的收益,最终促进山核桃产业的健康发展。因此,非常有必要对空苞山核桃进行快速、无损、准确识别。

近红外光是波长在780~2 526 nm 范围的电磁波,当近红外光照射有机物样品时,会使样品分子从基态跃迁到激发态,从而产生近红外光谱[6]。近红外光谱主要反映有机物含氢基团(C-H、NH、O-H 等)的倍频与合频吸收信息[7]。在不同的分子结构中,同一基团或不同基团的近红外吸收峰位置与强度均有所差别,因此近红外光谱可以反映有机物分子结构与含量等信息[8]。因快速、无损、稳定等优点,近红外光谱广泛应用于蔬菜、水果、肉类等农产品的品质检测与分级[9-12]。近年来,近红外光谱分析技术也被应用在坚果内部缺陷检测方面。蒋大鹏等[13]采用近红外光谱技术对正常和霉变松子进行检测,所建立的分类模型的准确率为100%。Hu 等[14]利用近红外光谱技术对新鲜板栗的品质进行研究,发现线性判别分析(Linear discriminant analysis,LDA)模型对正常板栗和霉变板栗的识别效果最佳,分类模型的验证集准确率为96.37%。郑剑等[15]对褐变和正常板栗进行近红外光谱检测,采用变量选择方法筛选特征波长变量,并建立板栗褐变的分类模型,其模型正确率可达0.88。Rogel-Castillo 等[16]应用PLS-DA 模型对隐性损伤和正常杏仁进行分类,结果表明其识别错误率在8.2%~9.2%之间。Pannico 等[17]利用近红外光谱技术对缺陷和正常榛子进行识别,分类模型的决定系数为0.89,交互验证均方根误差为0.88。Moscetti 等[18]通过近红外光谱技术对虫害板栗和正常板栗进行分类,结果表明分类错误率为8.41%,AUC 值为0.952。由上可知,国内外研究者大多将近红外光谱技术应用于杏仁、板栗、松子等坚果的缺陷和病害检测,而对山核桃内部缺陷的检测尚未见研究报道。

本研究以完整带壳山核桃为对象,利用两种近红外光谱检测装置采集山核桃的光谱,采用8种预处理方法进行光谱预处理,利用CARS 方法筛选特征波长变量,采用3 种判别分析方法空苞山核桃识别模型,并比较不同预处理、近红外检测方式及判别方法等所建立的识别模型性能,以确定较优的空苞山核桃识别模型,为空苞山核桃的快速、无损识别提供方法与技术支持。

1 材料与方法

1.1 试验材料

山核桃样本采购于杭州临安,随机选择大小均匀、外观正常的469 个山核桃作为试验样本,依次标号并保存于4~6 ℃冷库中直到试验使用。光谱采集前,将山核桃样本从冷库中取出并在室温环境中放置12 h,以保证山核桃温度与室温一致。光谱采集完成后,将全部山核桃样本进行手工破壳,破壳后的山核桃壳和山核桃仁分别置于A4 打印纸上观察是否存在空苞,将空苞山核桃样本记为类别A,正常山核桃样本记为类别B。

样本划分的方法有随机抽样法、kennardstone 法、光谱-理化值共生距离法等[19]。本试验采用kennard-stone 分类法对469 个山核桃样本按照2∶1 划分为校正集和预测集,校正集有30 个空苞山核桃样本和277 个正常山核桃样本,用于建立分类模型;预测集有18 个空苞山核桃样本和144 个正常山核桃样本,用于验证分类模型。

1.2 仪器与设备

AvaSpec-HS1024×122TEC 型微型光纤光谱仪,荷兰Avantes 公司;FC-UV600-2-ME 型光纤,荷兰Avantes 公司;FA2004 电子分析天平,上海舜宇恒平科学仪器有限公司;游标卡尺,德国美耐特公司。

1.3 光谱采集

试验采用两种近红外光谱检测装置采集山核桃样本的光谱,两种检测装置的原理示意图如图1 所示。检测装置1 中,2 盏卤素灯分别位于山核桃样本的两侧,三者中心位于同一水平线,光源总功率为300 W。检测装置2 中,4 盏卤素灯间隔90℃环绕于山核桃样本四周,五者中心处于同一水平面,光源总功率为600 W。

图1 山核桃近红外光谱检测装置示意图Fig. 1 Schematic diagram of Carya cathayensis near-infrared spectroscopy detection device

光谱采集前,将山核桃样本从冷库中取出放置在通风干燥处12 h,使样品的温湿度与实验室环境保持一致,以减少试验误差。此外,为保证所测光谱的稳定性,近红外光谱仪需要预热30 min。本研究采用2 种山核桃近红外光谱检测装置以漫透射方式采集山核桃样本的光谱,并以直径30 mm 的聚四氟乙烯球作为参比。在检测装置1中,将山核桃顶端和底部与光源垂直放置,采集1次光谱记为位置1,顺时针旋转90°再采集1 次光谱记为位置2,然后将山核桃顶端和底部与光源平行放置,采集1 次光谱记为位置3,取3 次光谱平均值作为山核桃样本的近红外光谱。在检测装置2 中,将山核桃顶端和底部与光源呈45°放置,采集1 次光谱记为位置1’,顺时针旋转90°再采集1 次光谱记为位置2’,取2 次光谱平均值作为山核桃样本的近红外光谱。对整个带壳山核桃样本的近红外光谱采集,检测装置1 积分时间为80 ms,检测装置2 积分时间为50 ms,扫描次数和平滑点数均为1 次和1。

1.4 光谱预处理及特征波长选择

光谱预处理可以消除或降低由光谱仪器、采集环境等因素造成的光谱噪声、基线漂移等影响。预处理方法中,SG 平滑(Savitzky-golay smoothing)是消除光谱噪声的一种最常用的方法[20];导数(Derivative)可以用来校正光谱的基线偏移和漂移,消除基线和其它背景的干扰[21];多元散射校正(Multiplicative scatter correction,MSC)可以有效消除样品光谱中由光散射引起的干扰[22];标准正态变量变换(Standard normal variate transformation,SNV)可以用来消除光程变化、颗粒大小及其散射产生的干扰[23];归一化(Normalize)是将数据按比例缩放以减少分布差异、特征、规模等的影响[24];去趋势(Detrend)可减少光谱数据采集过程中产生的偏移影响[25];基线校正是一种用来减少偏差的方法[26]。本研究采用上述8 种方法对光谱进行预处理,以尽可能消除光谱噪声。

由于近红外光谱数据的变量数目繁多,会存在较多的冗余和无用信息,需要进行特征波长选择,以获取有用信息变量,减少建模时间,提升模型的稳定性。本研究采用CARS 方法[27]筛选空苞山核桃的特征波长,以剔除与空苞山核桃无关的信息变量,简化山核桃空苞的识别模型,并提高模型的稳定性和精度。在CARS 变量选择过程中,蒙特卡罗采样次数为50,采用PLS 交叉验证建模,并根据最低错分率确定最优变量子集。

1.5 识别模型建立与评价

LDA 是一种常用的模式识别方法,其基本原理是将高维光谱数据投射到低维的向量空间,以实现光谱数据压缩,并使同类样本投影点接近[28]。二次判别分析(Quadratic discriminant analysis,QDA)和线性判别分析均基于贝叶斯规则,区别在于线性判别分析假设每一种分类的协方差矩阵相同,而二次判别分析中每一种分类的协方差矩阵不同。马氏距离判别分析(Mahalanobis distance discriminant analysis,MDA)使用马氏距离作为相似性度量。本研究采用上述3 种判别分析方法建立空苞与正常山核桃的分类模型,分类模型性能由敏感性、特异性以及总正确率指标进行评价。模型性能评价指标定义如式(1)~(3)。

式中,TP——真阳性,表示空苞山核桃被正确判别为空苞山核桃;FN——假阴性,表示空苞山核桃被错误判别为正常山核桃;TN——真阴性,表示正常山核桃被正确判别为正常山核桃;FP——假阳性,表示正常山核桃被错误判别为空苞山核桃。

2 结果与分析

2.1 山核桃的物理参数及近红外光谱分析

469 个山核桃样本的物理参数如表1 所示。由表1 可知,根据GB/T 24307-2009《山核桃产品质量等级》,试验所用的山核桃样本的质量、直径等参数均在合理范围内,具有一定的代表性。

表1 山核桃物理参数Table 1 Carya cathayensis physical parameters

从本质来说,可以采用近红外光谱分析技术对正常和空苞山核桃进行分类是由于两类山核桃内部组成成分存在差异,其差异体现在近红外光谱信息中,通过对近红外光谱信息的处理从而实现对两者分类。图2 是200~1 160 nm 波长范围2种检测装置采集的山核桃原始光谱。由图2 可知,山核桃近红外光谱在200~520 nm 波长范围的噪声比较大,因此选用530~1 100 nm 波长范围的山核桃近红外光谱用来分析。山核桃样本的近红外光谱在800~1 000 nm 波长范围存在明显的波峰和波谷,其中光谱波峰分别位于930 nm 和1 000 nm 处,光谱波谷分别位于880 nm 和959 nm 左右处;在530~800 nm 波长范围存在较为微弱的波峰,分别位于590 nm 及780 nm 左右处。从图2 中还能看出,正常山核桃的吸光度虽普遍高于空苞山核桃,但两者光谱相互重叠,很难直接从形态上加以区分。因此,需要采用化学计量学方法进行分析处理,以提取有用的光谱差异信息,建立山核桃空苞的分类模型。此外,检测装置1 与检测装置2的山核桃近红外光谱相比,采用检测装置2 采集的近红外光谱吸光度值比检测装置1 的略高。

图2 200~1 100 nm 波长范围的山核桃近红外光谱Fig. 2 Near-infrared spectra of Carya cathayensis in the wave length range of 200-1 100 nm

2.2 主成分分析

对山核桃原始光谱信息进行主成分分析,其结果如表2 所示。山核桃光谱的第1,2,3,4 主成分方差贡献率分别为84.08%,12.21%,2.65%,0.87%,累计贡献率可达99.82%,可以代表山核桃的原有光谱信息。

表2 山核桃光谱的主成分贡献率Table 2 Principal component contribution rates of Carya cathayensis spectra

第1 主成分和第2 主成分的方差贡献率达到96.30%,远大于其它主成分,主成分分析不仅可以进行数据降维,同样也能对两类样本间的差距进行初步分析。因此,以第1 主成分和第2 主成分为变量绘制散点分布图,结果如图3 所示。

图3 第1 和第2 主成分散点分布图Fig. 3 1st and 2nd principal component scatter plots

由图3 可以看出,正常山核桃和空苞山核桃的主成分散点分布聚集在一起,没有明显的簇拥现象,说明两者之间的主成分散点分布没有明显的差异。用前2 个主成分不能对正常和空苞山核桃进行正确的分类,因此需要采用模式识别方法对山核桃光谱作进一步分析。

2.3 分类模型建立

2.3.1 全波长分类模型 对山核桃样本光谱,采用归一化等8 种方法进行光谱预处理,然后应用LDA、QDA 和MDA3 种方法建立空苞和正常山核桃的分类模型建,并利用预测集样本对分类模型精度进行验证,其结果如表3 和表4 所示。经MSC预处理后的山核桃近红外光谱如图4 所示。

表3 不同预处理和建模方法下山核桃空苞的分类模型结果(检测装置1)Table 3 Classification model results of Carya cathayensis with empty bud under different preprocessing and modeling methods(Detection device 1)

表4 不同预处理和建模方法下山核桃空苞的分类模型结果(检测装置2)Table 4 Classification model results of Carya cathayensis with empty bud under different preprocessing and modeling methods(Detection device 2)

图4 MSC 预处理后530~1100 nm 波长范围的山核桃近红外光谱Fig. 4 Near-infrared spectra of Carya cathayensis after MSC pretreatment in wave length range of 530-1 100 nm

从表3 和表4 可以看出,相较于原始光谱建立的模型,经归一化、一阶导数、标准正态变量和多元散射校正预处理后的光谱建立的模型能提高对空苞山核桃的识别率,而对正常山核桃的识别率略微降低;经SG 平滑和二阶导数预处理后的光谱建立的模型对空苞和正常山核桃的识别率都降低;经去趋势和基线校正预处理后的光谱建立的模型对空苞山核桃和正常山核桃的识别结果影响不明显;经过MSC 处理后的光谱建立的模型对空苞和正常山核桃的识别率都大幅上升,3 种建模方法所建立的分类模型性能均为最优,其模型的敏感性、特异性和总正确率均为1。3 种建模方法相比而言,对空苞山核桃识别结果最佳的是MDA模型,QDA 模型次之;对正常山核桃识别结果最佳的是LDA 模型,QDA 模型次之。对两种光谱检测装置而言,使用检测装置1 的光谱建立的3 种模型精度都高于检测装置2。

为了探究MSC 处理对建立的分类模型精度的影响,将经MSC 处理后的光谱进行可视化,两种检测装置经MSC 处理后的光谱如图4 所示。从图4 中可以看出,相较于原始光谱,经MSC 处理后的两种山核桃的光谱曲线更加集中于同种类别,空苞山核桃吸光度值在900~1 000 nm 波长范围内低于正常山核桃,可以基本区分两者。由此可见,MSC 预处理能够有效消除散射的影响,使光谱中与空苞变化相关的有用信息凸显出来。因此,经MSC 方法预处理后所建立的山核桃空苞分类模型的性能较优。

2.3.2 基于特征波长的分类模型 特征波长的选取可以有效减少无关变量的数目,从而起到减少变量数、提高模型精度的作用。对于全波长建模结果,由于检测装置1 中建立的山核桃分类模型优于检测装置2,因此采用CARS 方法仅对检测装置1 中的光谱数据进行特征波长选择。图5 为经MSC 预处理后的山核桃光谱的CARS 变量筛选结果。由图5a 可知,在1~5 次MC 采样过程中,被选择的山核桃空苞的波长变量数快速下降;在5~25次MC 采样过程中,被选择的波长变量数缓慢下降,对应山核桃空苞特征波长变量的粗选与精选两个过程。图5b 为山核桃空苞分类模型的错分率随采样次数的变化情况。在26 次MC 采样时,分类模型的错误率最小,此时选取的特征波长建模效果最佳。图5c 为MC 采样过程中山核桃光谱各波长变量的回归系数变化情况,“*”对应的位置为分类模型错分率最低的MC 采样次数。最终,共获得34 个山核桃空苞的特征波长变量。对于原始光谱及其它预处理光谱,利用CARS 方法在相同参数下进行变量筛选,分别获得27,13,27,27,48,54,43和24个特征波长变量。

图5 MSC 预处理后光谱的CARS 变量筛选过程Fig. 5 CARS variable screening process of spectra after MSC preprocessing

经CARS 变量筛选后,采用LDA、QDA 和MDA 方法分别建立空苞和正常山核桃的分类模型,其结果见表5。相比于全波长分类模型,采用CARS 筛选的特征波长建立的分类模型的变量数和计算时间大大减少,各种分类模型的敏感性基本不变,特异性略有降低,总正确率基本持平。由此可见,CARS 方法可以较为有效地筛选出空苞山核桃的特征波长变量。与全波长分类模型结果类 似,MSC-CARS-LDA、MSC-CARS-MDA 和MSC-CARS-QDA 模型的识别结果最优,其特异性、敏感性和正确率均为1,说明可以很好地识别两类山核桃。

表5 基于CARS 特征波长的山核桃空苞的分类模型结果(检测装置1)Table 5 Classification model results of Carya cathayensis with empty bud based on CARS sensitive wavelengths(Detection device 1)

3 结论

本研究利用近红外光谱分析技术和模式识别方法对空苞山核桃进行快速无损识别。采用两种近红外检测装置采集山核桃的光谱,比较了8 种不同预处理方法及CARS 变量筛选后所建立的LDA、QDA 和MDA 分类模型的性能。结果表明,检测装置1 的空苞山核桃分类模型性能优于检测装置2 的分类模型,MSC 为较优的预处理方法,建立的山核桃空苞分类模型的性能最优,LDA、QDA和MDA 模型的特异性、敏感性和正确率均为100%。经CARS 特征波长筛选后,建模所用变量数大幅减少,分类模型得到有效简化,而精度与全波长模型持平。本文为空苞山核桃的快速无损识别提供一种可行的方法,也为其它坚果类的内部缺陷识别研究提供新思路。

猜你喜欢
山核桃波长预处理
HPLC-PDA双波长法同时测定四季草片中没食子酸和槲皮苷的含量
山核桃
基于预处理MUSIC算法的分布式阵列DOA估计
双波长激光治疗慢性牙周炎的疗效观察
日本研发出可完全覆盖可见光波长的LED光源
浅谈PLC在预处理生产线自动化改造中的应用
络合萃取法预处理H酸废水
山核桃
便携式多用途光波波长测量仪
基于自适应预处理的改进CPF-GMRES算法