连续投影算法融合信息熵选择霉变玉米高光谱特征波长

2020-03-11 08:33王光辉
核农学报 2020年2期
关键词:信息熵波长正确率

殷 勇 王光辉

(河南科技大学食品与生物工程学院,河南 洛阳 471023)

玉米(Zea maysL.)作为我国重要的粮食作物,其安全问题关系国计民生。新鲜玉米由于含水量高、所带菌量较多,极易在高温高湿条件下霉变,其中黄曲霉毒素B1是玉米霉变过程中产生的代表性毒素,被误食则会在机体内过氧化酶的代谢作用下导致肝脏细胞病变、胆囊增生以及出血性坏死等症状,更严重的可能会导致肝癌甚至死亡[1]。因此,霉变玉米的快速检测十分必要,而目前常规的霉变玉米检测方法操作复杂且需要破坏玉米样本,难以达到快速、无损检测的目的。

高光谱技术融合了图像信息与光谱信息,使之成为了无损检测技术领域的研究热点之一[1-3]。由于光谱信息能检测农产品物理结构、化学组成,而图像信息能反映农产品的物理特征及表面缺陷、污染情况,所以高光谱技术在农副产品品质检测中的应用研究倍受关注。但高光谱数据中波段数多,信息量大,信息冗余度高,使之在农副产品的分类、识别应用中存在较大的困难[4-7]。因此,减少数据量,提取待检对象的特征波长尤为必要。目前,特征波长提取方法有相关系数法、载荷值法、回归系数法等[8],但这些方法通常根据主观经验选取阈值,缺乏有效的阈值选择标准[9-10]。此外,特征波长主要利用光谱信息进行选择,这样可能使所获得的特征波长不能真正表征待测对象,所构建的鉴别模型稳健性也不高。农产品检测中针对高光谱有关特征波长的选择方法主要为统计分析法。褚璇等[11]利用高光谱技术检测玉米颗粒表面黄曲霉毒素,引入Fisher 判别最小误判率的方法从原始波段中选取4 个波段,构建的判别模型训练集和验证集准确率分别为87.4%和80.9%,模型准确率并不理想;袁莹等[12]利用高光谱成像技术中的光谱信息检测玉米籽粒表面的黄曲霉毒素,用主成分分析法(principal component analysis,PCA)对玉米籽粒进行光谱数据降维,从原始波段中提取14 个波段作为玉米籽粒的光谱特征波段,借助Fisher 因子判别分析(fisher discriminant analysis,FDA)对样品进行分类,但准确率不高;Huang 等[13]运用高光谱成像技术采用回归系数法从扇贝的平均光谱值中选取8 个波长,将全波段和选定波长的光谱作为独立变量进行建模,结果显示,基于8 个特征波长下构建的偏最小二乘回归模型效果最佳。Rajkumar 等[14]采用偏最小二乘法提取高光谱特征波长,实现了对香蕉品种和成熟期较好的预测。综合国内外研究,高光谱在农产品检测中有关特征波长的选择方法较多,但结果均不理想,且融合图像和光谱信息来选择特征波长的研究尚鲜见报道。因此,针对6 种不同霉变等级的玉米,为获取有利于霉变等级鉴别的高光谱特征波长,基于光谱信息和图像信息,本研究提出了一种连续投影算法(successive projections algorithm,SPA)融合信息熵理论的特征波长选择方法,以期为霉变玉米快速无损分级提供一种新方法。

1 材料与方法

1.1 样本制备

新鲜玉米(中单909)购自洛阳市中原农贸城,不同霉变等级的玉米样品由农产品加工实验室培育得到。新鲜玉米含水量较高,在自然条件下玉米本身会携带多种真菌和细菌,当湿度大于85%、温度高于25℃时,霉菌就会迅速生长并产生有毒代谢产物。因此,可创造温、湿度条件用培养箱制备出霉变玉米。参考文献[15]制备霉变玉米样本,设定培养箱温度30℃、相对湿度85%作为制备霉变玉米样本的培养条件,并选取经过培养0、2、4、6、8、10 d 的样本作为6 个霉变等级样本,分别标记为A1、A2、A3、A4、A5 和A6。为了验证霉变玉米等级划分的合理性,按照GB 5009.22-2016[16]的方法检测新鲜玉米和霉变玉米样本中黄曲霉毒素B1含量。每个等级的样品作3 次平行,取平均值。由表1 可知,随着培养时间的延长,黄曲霉毒素B1含量逐渐增多,充分说明用培养时间来表征玉米霉变等级是合适的。每个霉变等级玉米制备50 个样本,共制备试验样本50×6=300 个,每个样本含量50±0.5 g。

表1 不同等级霉变玉米黄曲霉毒素B1 含量Table 1 Aflatoxin B1 concent in different grades of moldy maize

1.2 高光谱系统

高光谱数据采集系统主要由IST50-3810 高光谱成像仪(Inno-Spec,德国)、计算机、4 个500 W 的光纤卤素灯(ESYLUX 90000420108,德国)和传送装置组成。图1 为高光谱采集系统示意图:高光谱成像仪通过USB 2.0 接口数据线连接计算机,由SICap-STVR V1.0.x 软件平台驱动控制成像仪,并及时记录和存贮高光谱数据。高光谱仪的光谱范围为371.05 ~1 023.82 nm,光谱分辨率为2.8 nm。

图1 高光谱数据采集系统Fig.1 Hyperspectral image acquisition system

1.3 高光谱信息采集

霉变玉米高光谱信息采集时,取1 个待测霉变玉米样本均匀平铺在规格为ø10 cm×1 cm 的培养皿中,然后将培养皿放置在传送带上,传送带速度为2 mm·s-1,采样波长间隔设为0.51 nm,高光谱摄像头的图像分辨率定为760×1 032,共采集1 288 个波段下的光谱反射值和对应的图像信息。图2 为6 个等级的霉变玉米在720 nm 波长下的高光谱图像。数据处理在ENVI4.7 和MatlabR2014a 平台上完成。由图2 可知,A1、A2、A3、A4 等级玉米样品霉变程度不明显,A5 和A6 等级玉米样品霉变程度变化明显。

1.4 高光谱图像标定

高光谱图像采集过程中,采样背景和相机暗电流的存在会影响高光谱图像的质量,进而影响高光谱图像定性或定量分析模型的精度和稳定性[17],因此,需要对所获得的高光谱图像进行黑白标定。在与样品相同的采集条件下,扫描标准白色矫正板得到全白的标定图像,关闭高光谱相机光圈进行图像采集得到全黑标定图像,将采集得到的样本图像进行标定,得到标定后的高光谱图像和光谱信息。标定公式如下:

式中,W 表示全白标定图像;K 表示全黑标定图像;L 表示采集得到的样本图像。

1.5 光谱预处理

图像采集时,样品表面凹凸不平,以及采集时的杂散光等无用信息产生的散射会干扰原始光谱数据,因此,需要对原始光谱进行预处理,以尽可能减少这些无用信息对光谱数据的影响,提高图谱信息与样品内部化学成分之间的相关性,进而提高模型准确度[18]。本研究采用多元散射校正(multiplicative scatter correction,MSC)[19]对原始光谱进行预处理。

图2 720 nm 波长下不同等级霉变玉米的高光谱图像Fig.2 Hyperspectral image of different grades of moldy maize at 720 nm wavelength

1.6 特征波长初步筛选

SPA 不仅能够将波长变量间的共线性消除,还能够有效地避免信息重叠,用较少的信息量代表多数样本的光谱信息,已被广泛应用于提取特征波长[20-23]。SPA 的具体运算步骤参考文献[24],最小交互验证均方根误差(root mean square error,RMSE)对应的波长变量个数即为最终的选择结果。

1.7 特征波长细选

信息熵是一个信源所包含信息量多少的度量,包括自信息熵和互信息熵。样本在某一波长下的自信息熵越大,说明该波长越能刻画样本[25];而某2 个波长下的互信息熵越小,说明它们之间的关联性小,越有利于区分它们所表征的样本。基于这一思想,将自信息熵和互信息熵概念引入到不同等级霉变玉米高光谱的判别中。对灰度图像来说,具有不同灰度值的像素在图像中随机出现的概率是相互独立的,因此,可将图像灰度看作是一个随机变量,进而计算出样本图像中每级灰度的概率分布密度:

式中,hi为一个图像中灰度值为i的像素点的总数;n为一个图像中的像素总和。

在式(2)基础上,图像M的自信息熵H(M)可表示为:

式中,灰度值i从0~255 共256 个等级。

对任意两幅图像M和N,其联合熵H(M,N)可表示为:

式中,PMN(i,j)为图像M和N灰度的联合概率分布。

图像M和图像N的互信息熵I(M,N)为:

进而可提出任意2 个霉变等级下玉米样本间的可分性判据A,其计算公式为:

当2 个等级霉变玉米样本高光谱图像之间的互信息熵越小、自信息熵越大时,则A值越小,越有利于样本的分级;反之则不利于分级。由此,在式(6)计算的基础上,可进行最佳特征波长的选择:

第1 步:运用SPA 进行特征波长初选,获得若干个初选波长;

第2 步:根据公式(3)计算所有初选波长下每个霉变等级玉米样本(50 个样本)高光谱图像的平均自信息熵;

第3 步:任选2 个霉变等级组合(6 个等级共15个组合),根据公式(4)和(5)分别计算每个组合在初选波长下对应2 个等级样本之间的互信息熵,并计算其平均值;

第4 步:根据公式(6)计算所有初选波长下所有组合(15 个组合)霉变玉米高光谱图像的A值及其均值;

第5 步:选择最小A值所对应的波长即为最佳波长。

2 结果与分析

2.1 光谱预处理

将经黑白标定后的光谱进行MSC 预处理,由图3、图4 可知,经MSC 校正后得到的光谱数据,可有效消除散射影响所导致的基线偏移现象,使样本之间的反射比差异减小,提高信噪比。

图3 原始光谱数据Fig.3 The original spectral data

2.2 特征波长选择

2.2.1 特征波长初选 由于在成像光谱区间的两端噪声较多[26-28],因此,在数据分析中只采用第300 ~第1 000 波段(524~880 nm)间的数据。将预处理过的光谱数据运用SPA 初选特征波长,按照交互验证均方根误差最小时对应的波长变量个数即为选择结果这一思想,采用SPA 筛选霉变玉米特征波长及特征波长的个数。由图5、图6 可知,当选择出的特征变量为8 个时,交互验证的均方根误差最小且逐渐趋于稳定,此时所选出的8 个特征变量对应的特征波长即为初选的特征波长。

图4 经多元散射校正处理后的光谱数据Fig.4 The spectral data after multiple scatter correction

2.2.2 特征波长细选 在初选的8 个特征波长的基础上,根据特征波长细选步骤,可得在8 个初选特征波长下15 个组合霉变玉米样本间的高光谱图像的A值及其均值。由表2 可知,不同等级霉变玉米样本在8个波长下的A值的平均值大小按降序排列为A622nm>A598nm>A650nm>A688nm>A699nm>A824nm>A709nm>A819nm。因A值越小,越有利于不同样本之间的分级,从而确定霉变玉米最佳特征波长为819 nm。

表2 不同波长下霉变玉米15 个组别高光谱图像的A 值及其均值Table 2 A values of hyperspectral images of 15 groups of moldy maize under different wavelengths and its mean values

图5 连续投影算法提取特征波长Fig.5 Continuous projection algorithm for feature wavelength extraction

图6 选择特征波长个数Fig.6 Number of characteristic wavelengths selected

2.3 FDA 鉴别分析

为检验上述特征波长选择方法的有效性,采用FDA 方法进行验证。提取初选特征波长下图像的7个不变矩纹理特征和6 个小波纹理特征[29-31],将13个特征参量作为FDA 输入参量,得到8 个初选波段下霉变玉米的分级正确率。由表3 可知,819 nm 波长下FDA 的判别正确率达到最高,证明了基于SPA 和信息熵相结合的高光谱特征波长选择方法的有效性。图7为622 nm 和819 nm 波长下的FDA 直观图,对比可知,622 nm 波长下霉变玉米分级正确率达到93.2%,但A1、A2 和A3 三个等级的样本仍有部分未分开,而在819 nm 波长下基本上实现了不同等级霉变玉米间的分级。

表3 不同波长下FDA 判别正确率Table 3 FDA discrimination accuracy at different wavelengths

3 讨论

玉米中毒素的产生主要是由于其自身带有孢子和芽孢,芽孢是细菌的休眠体,孢子由霉菌产生,它们在适宜的生长环境下可使玉米产生霉变[32]。而有关玉米霉变的分析,前人主要是通过理化试验对其进行分类鉴别,其过程比较繁琐。高光谱图像技术具有诸多优点,但由于它是将多信息融合的技术,获得的数据量大、相关性高,导致数据不易保存,且信息处理的效率相对较低,影响计算速度。所以用最少、最恰当的特征来表征最大、最有效的信息量是目前高光谱图像技术的研究重点。本研究提出一种高光谱特征选择方法,以不同霉变等级的玉米为研究对象,利用霉变玉米高光谱图像和光谱信息,达到了霉变玉米无损快速分类鉴别。

本试验中高光谱鉴别不同等级霉变玉米结果影响因素主要为特征波长的选取。研究表明,基于SPA 和信息熵相结合的方法筛选特征波长,并利用该波长下的图像信息进行FDA 验证,结果显示该波长下的鉴别正确率最高(图7),说明该方法选择出的特征波长是有效的,将特征波长作为不同霉变等级的分类依据,发现分类正确率明显提高,这与薛建新等[33]采用高光谱技术并结合特征波长的提取判断沙金杏成熟度的结论一致。借鉴李金梦等[34]特征选择方法和文献[35-37]中特征波长选择思路,基于目前特征选择单纯利用光谱信息的特点,本研究在SPA 选择特征波长的基础上,引入信息熵的概念,综合光谱信息和图像信息进行特征波长的选择,最终的分类结果比单纯利用光谱信息正确率有所提高。本研究提取特征波长时虽然去除了冗余信息,但特征波长的选择方法可能并非最佳,所以针对高光谱特征波长的选择仍需进一步研究,此外,该特征选择方法是否能够提高霉变玉米黄曲霉毒素B1预测模型的正确率也有待研究。

图7 622、819 nm 波长下霉变玉米高光谱分级图Fig.7 Hyperspectral image classification of moldy maize under 622 nm and 819 nm

高光谱成像技术在霉变玉米无损检测中仍存在一定的局限性,还需要进一步完善,同时本研究所用的实验样本的数量及种类可能还不够多,地域、品种覆盖范围还不够广,霉变天数的选择也可能不是鉴别霉变玉米中黄曲霉毒素B1的最佳等级,且霉变玉米的鉴别方法比较单一,因此,后续工作还有待进一步研究。

4 结论

本研究根据和信息熵原理提出了一种霉变玉米高光谱鉴别中特征波长的选择方法,即利用SPA 处理光谱信息初选出8 个特征波长(598、622、650、688、699、709、819、824 nm),再通过信息熵原理处理图像信息对初选的8 个特征波长细选,最终确定了适于霉变玉米等级鉴别的最佳分级波长为819 nm。在提取特征波长下霉变玉米图像的纹理特征基础上,借助FDA 方法,基本实现了霉变玉米等级的鉴别,819 nm 波长下霉变玉米分级正确率为98.6%。FDA 结果证明了所提出的高光谱特征波长选择方法的有效性。本研究结果为构建霉变玉米的高光谱检测模型奠定了基础,也为高光谱技术应用于其他物品检测提供了一种特征波长选择的新思路。

猜你喜欢
信息熵波长正确率
一种波长间隔可调谐的四波长光纤激光器
基于信息熵可信度的测试点选择方法研究
个性化护理干预对提高住院患者留取痰标本正确率的影响
杯中“日出”
近似边界精度信息熵的属性约简
基于两种LSTM结构的文本情感分析
基于信息熵的承运船舶短重风险度量与检验监管策略研究
生意
信息熵及其在中医“证症”关联中的应用研究
生意