Q型因子光谱转移法用于烟草化学成分近红外预测模型的传递

2024-03-14 01:32张诺涵王洪波李蓓蓓梁友艳郭军伟
烟草科技 2024年2期
关键词:校正光谱矩阵

张诺涵,赵 乐,王 迪,刘 雨,王洪波,李蓓蓓,梁友艳,郭军伟*

1.中国烟草总公司郑州烟草研究院,郑州高新技术产业开发区枫杨街2 号 450001 2.山东中烟工业有限责任公司青岛卷烟厂,山东省青岛市崂山区株洲路137 号 266300

近红外(Near infrared,NIR)是一种快速、高效、无损的分析技术,目前在烟草行业广泛应用于烟叶化学成分分析[1]、烟叶质量评价[2]、打叶模块组配[3]、复烤片烟质量均一性控制[4]、卷烟原辅材料质量控制[5]和卷烟配方维护与设计[6]等。由于光学系统和元器件的微小差异,在一台近红外光谱仪上构建的预测模型并不能直接应用到另外一台近红外光谱仪上。要将近红外预测模型应用到其他光谱仪上,必须进行模型转移。预测模型转移能够避免繁琐重复的建模过程,实现预测模型利用的最大化,实现分析数据的统一、可比,对大数据积累与分析挖掘具有重要意义[7]。

目前,近红外模型转移方法主要有对模型参数校正的算法、对预测结果校正的算法和对光谱校正的算法3 种[8]。其中,转移效果最好的是光谱校正法,且光谱校正法非常有利于网络化连接的仪器群,对于直接利用近红外光谱图进行数据分析而不使用化学成分预测模型的应用场景,这种光谱校正方法也可以将子机群的光谱统一到可比基础之上,具有很大优势。目前,烟草行业多采用基于光谱校正的模型转移方法中的分段直接校正法[9](Piecewise direct standard,PDS)和光谱空间转换[10](Spectral space transformation,SST)等,而SST 在重组光谱时需要根据经验选取适当的主成分数,同时PDS 法也需要根据经验选择最优窗口大小及主成分数。因此,建立了一种基于光谱校正模型转移的Q 型因子光谱转移法(Q-factor spectral transformation,QFST),该方法根据类间可分性原则,将主机和子机光谱的众多原始变量归结为几个综合因子,以此构建两者的转换关系,旨在以最小的信息损失实现对不同仪器间光谱的校正。

1 材料与方法

1.1 材料和仪器

2021年全国各中烟工业有限责任公司的醇化片烟样品,共1 012个;采用Kennard-Stone(KS)方法[11]筛选出199个具有代表性的醇化片烟样品。

主机M1 和子机S1、S2 均为Antaris Ⅱ型傅里叶变换近红外光谱仪配并备积分球漫反射采样系统、ICS 6000 离子色谱仪(美国Thermo Scientific 公司);主机M2 和子机S3 为Tango Ⅱ型傅里叶变换近红外光谱仪(德国Bruker 公司);ZM200 型粉碎机(德国Retsch 公司);BSA124S 型电子天平(感量0.000 1 g,德国Satorious 公司);TRACE 1310/TSQ QUANTUM XLS 气相色谱-串联质谱联用仪(GC-MS/MS,美国Thermo Fisher Scientific 公司);AA3 连续流动分析仪(德国BRAN+RUBBE 公司);A300全自动氨基酸分析仪(德国MembraPure GmbH公司);1200 液相色谱仪(美国Agilent 公司);AB Sciex Triple TOF TM 4600 质谱仪(美国Applied Biosystems公司);UPLC-CLASS超高效液相色谱系统(美国Waters 公司);7500 型电感耦合等离子体质谱仪(ICP-MS,美国Agilent 公司);702 SM Titrino pH计(瑞士Metrohm公司)。

1.2 方法

1.2.1 样品处理与化学指标检测

所有烟草样品均按照行业标准[12]干燥处理。干燥后的样品通过带孔径0.250 mm(60 目)分筛网的粉碎机粉碎研磨,混匀后装入密封袋。采用行业标准或文献方法测定样品的总植物碱[13]、还原糖和总糖[14]、总氮[15]、钾[16]和氯[17]6种常规化学指标、12种有机酸[18]、21种氨基酸[19]、17种Amadori化合物[20]、6种多酚类化合物[21]、二氯甲烷提取物[22]、淀粉[23]、镁离子和钙离子[24]、硫酸根和磷酸根[25]、茄尼醇[26]以及pH[27]等共70种化学指标。

1.2.2 光谱采集与预处理

主机和子机的光谱采集参数:仪器的扫描范围为4 000~10 000 cm-1,扫描次数为64次,光谱分辨率为8 cm-1。

光谱预处理方法:采用一阶求导和Savitzky-Golay卷积平滑处理,平滑窗口为17,平滑阶数为2。

1.2.3 Q型因子光谱转移法(QFST)

因子分析法是将众多的原始变量归结为少数几个因子变量的一种多变量统计分析方法[28]。该方法通过将原始变量中相关性较高的变量归为同一类别,其中,每个类别代表一个基本结构,即公共因子。通过使用适量的公共因子的线性函数与特殊因子的组合描述原始的每个分量。

因子分析模型有R 型和Q 型之分,R 型、Q 型分析的对象不同。R型因子分析是研究指标之间的相互关系,实现对样品的分类;而Q型因子分析主要是分析样品间的相似程度,并实现对变量的分类[29]。由于烟叶样品间的相似性很强,故可采用Q 型因子分析方法提炼具有代表性的公共因子。

Q型因子光谱转移法(QFST)就是通过采用Q型因子分析分别得到烟叶样品在主机和子机上的公共因子,并重组其相应的光谱矩阵,从而得到主机和子机之间的光谱转换关系矩阵,实现主机和子机间的光谱转移。具体计算过程如下:

求主机和子机的因子载荷矩阵和因子得分矩阵。采用主因子法,即主成分法对主机光谱Xmori和子机光谱Xsori进行估计,得到因子载荷矩阵和因子得分:

式中,Xmori—主机光谱;Xsori—子机光谱;光谱矩阵Xmori和Xsori的每行表示同一组标准样品在主机和子机上测量的相应光谱;Amori—主机因子载荷矩阵;Asori—子机因子载荷矩阵;Fmori—主机因子得分矩阵;Fsori—子机因子得分矩阵;Em—主机特殊因子矩阵;Es—子机特殊因子矩阵;上标“T”表示转置。

重组主机和从机的光谱矩阵。采用最大方差正交旋转法,将变量进行分类,即因子载荷的绝对值向0和1两极分化,再通过矩阵计算得到具有代表性的公共因子,进一步选择主因子数重组得到新的主机光谱矩阵Xm和子机光谱矩阵Xs:

式中,Xm—主机的重组光谱,Xs—子机的重组光谱;Am—旋转后的主机因子载荷矩阵;As—旋转后的子机因子载荷矩阵;Fm—旋转后的主机因子得分矩阵;Fs—旋转后的子机因子得分矩阵。

求主机和子机间的光谱转移矩阵。由公式(4)通过矩阵变换得到:

将公式(5)带入公式(6)中,主机光谱矩阵Xm可以表示为

根据公式(7)得到转换关系矩阵P:

由此,利用转换关系矩阵P 可以得到子机在主机上的转换光谱Xtrans:

通过转换光谱Xtrans就可以预测在子机上测量的光谱转移到主机上的相应光谱。由此在主机上建立的校正模型就可以用QFST 法通过模型转移应用到子机上。

1.2.4 光谱转移及化学成分预测

以主机M 扫描的标准样品光谱为主机光谱,子机S1 和子机S2 扫描的标准样品光谱为其相应的子机光谱,采用QFST、SST和PDS 3种模型转移方法将子机光谱校正后,使用主机模型进行各个化学指标的分析预测,待得到各模型转移方法相应的指标预测结果后再统计分析。

在中国,安道麦推出了多款标杆性杀菌剂产品,包括获得中国植保产品贡献奖的“喜思安®”“乐谱道®”“道立锋®”等一批优秀杀菌剂,其中,明星产品“喜思安®”将于2019年全新升级,给果农更强的防病美果体验。2017年,“安普博®”作为一款同类进口配方产品,以其更强的防病增产表现,迅速获得了不少水稻大户的青睐。“邦超®”的推出补强了真菌、细菌混发性病害解决方案。2018年,淮安全球制剂中心为中国供应的第一个产品“靓快®”也表现不俗,先进的配方和工艺使得产品品质在同类中脱颖而出。第一个在国内登记的进口氟啶胺·烯酰吗啉“宝福特®”将会在2019年上市,针对低等真菌病害市场,壮大蔬菜产品线。

光谱相似度:计算同一样品测得的两个光谱之间的皮尔逊相关系数,取皮尔逊相关系数的平方得到决定系数(Rs2),最后取所有样品的决定系数的平均值评价两个光谱矩阵的相似度。

其中,在应用PDS时需要调整窗口的大小,本数据集中当窗口大小为7时,Rs2最大。

1.2.5 传递结果评价

选择烟草行业近红外分析系统的醇化片烟近红外分析模型作为评估模型[30],用于本研究中模型转移效果评价。对不同转移方法得到的子机光谱的预测结果进行统计分析,采用化学指标的校正标准误差(SEC)和模型决定系数(R2)作为评价指标[31],分别对模型转移效果进行分析比较。用SEC评估预测值与检测值之间差异的标准偏差,代表模型的整个残余误差。此处的R2是预测值与检测值皮尔逊相关系数的平方,用来评价验证集预测值与检测值之间的相似程度数。

1.2.6 数据处理方法

所有数据分析过程通过MATLAB R2022b(美国MathWorks公司)实现。

2 结果与分析

2.1 仪器间定性误差分析

将仪器主机M1和子机S1、子机S2上采集的199个光谱进行平均,得到的平均光谱见图1。可知,相同的烟叶样本在3台仪器上测量所得的光谱形状非常相似,但有一定的背景差异,子机光谱与主机光谱相比,其整体吸光度产生了不同程度的偏移。其中,子机S2 光谱相对于主机M1 光谱的偏移较大,子机S1 光谱的偏移较小。为了进一步说明仪器间的差异,图2中给出了主机和子机所有光谱主成分分析后的第1和第2主成分的得分图,其中,第1主成分贡献率为90.41%,第2主成分贡献率为8.22%。从图2中可以看出,子机S1 的光谱与主机M1 的光谱存在一定的重叠,而子机S2与主机M1的光谱在第1主成分的得分上存在明显差异,偏移较大。

图2 3台仪器光谱在第1、第2主成分的得分Fig.2 PC1 and PC2 scores of the spectra measured on three instruments

由此可知,使用不同的仪器对相同样品进行光谱采集时,会使光谱发生不同程度的偏移。将主机的近红外预测模型直接应用到子机上时,会引起较大的系统预测误差。因此,需要采用合适的模型转移方法提高模型预测的准确性。采用QFST 法对两台子机光谱进行转移,得到的平均光谱和主成分得分图如图3 和图4 所示。由图3 可知,经QFST 法处理后的子机S1光谱和子机S2光谱与原始主机M1光谱能相对重合。由图4可以看出,经QFST法处理后的子机光谱和主机光谱主成分差异非常小,其中,第1 主成分贡献率为69.28%,第2 主成分贡献率为27.35%。采用QFST 法可以大幅消除仪器变化所产生的影响,从而减少子机S1 和子机S2 与主机M1 之间的差异。

图3 经QFST转移后的NIR平均光谱图Fig.3 NIR mean spectra after QFST transfer

图4 经QFST转移后3台仪器光谱在第1、第2主成分的得分Fig.4 PC1 and PC2 scores of the spectra measured on three instruments after QFST transfer

为验证QFST 法在其他型号近红外光谱仪上的适用性,选取在Tango Ⅱ型近红外光谱仪的主机M2和子机S3 上采集的245 个烟叶样品光谱进行验证。主机M2、子机S3 和采用QFST 法对子机S3 光谱进行转移的平均光谱见图5。可知,相同的烟叶样本在两台近红外光谱仪上测量所得光谱的整体吸光度产生了偏移,经QFST 法处理后的子机S3 光谱与主机M2光谱基本重合。

图5 主机M2和子机S3转移前、转移后的NIR平均光谱图Fig.5 NIR mean spectra of the master M2 and slave S3 before and after transfer

主机M2光谱、子机S3光谱和采用QFST法对子机S3进行转移后光谱的第1和第2主成分得分图见图6,其中,第1主成分贡献率为77.06%,第2主成分贡献率为20.53%。可知,转移前光谱在第1 主成分的得分上存在明显差异,经QFST法转移后的子机光谱和主机光谱主成分差异非常小。因此,QFST法同样适用于其他型号的近红外光谱仪之间的光谱转移,可消除仪器变化所产生的影响。

图6 主机M2和子机S3转移前、转移后的光谱在第1、第2主成分的得分Fig.6 PC1 and PC2 scores of spectra of the master M2 and slave S3 before and after transfer

2.2 主成分数对校正模型转移方法的影响

QFST是基于主成分分析的模型转移方法,即主因子法,因此,所述QFST 的主因子数也就是主成分数。因QFST 需要采用具有代表性的主因子重构光谱矩阵,所以需选择大于或等于3的主因子数才能重构出数据集,并优化主成分数对模型转移的影响。

选定主因子数从3到50后,采用QFST法将子机S1 光谱和子机S2 光谱转移到主机M1,分别计算相应的决定系数,结果见图7a 和7b。可以看出,主成分数越大,采用QFST 法进行模型转移的效果越好。当主成分数≥4 时,Rs2≥0.999 6,说明子机光谱经模型转移后与主机光谱一致性好。

图7 主成分数对模型转移方法的影响Fig.7 Effects of the number of principal components on model transfer method

QFST法的目标是尽可能包含原数据的信息量,没有要求减少因子的数量。因此,对于QFST 来说,可以选择大于5的主成分数,在实际应用时可根据需求选择更大的主成分数。

2.3 标准化样本数对QFST的影响

优化模型转移方法与标准化样本的数量密切相关。增加标准化样本的数量会提高模型转移的效果,但是模型转移成本也随着增加。因此,在实际应用中通过优化选择较少的标准化样本数量获得可靠的结果。由于主因子数表示代表性样品的数量,因此,标准化样本数需要大于或等于主因子数。

主因子数(f)选定5、10、15 和20 后,在199 个样本中选取所需标准化样本,剩余样本作为验证集样本。采用QFST 法将子机S1 光谱和子机S2 光谱转移到主机M1,分别计算相应的决定系数,结果见图8。可以看出,随着标准化样品数量的增加,光谱平均相似度逐渐增加,当标准化样品数量为主因子数的2.5 倍时,光谱平均相似度增加幅度基本平稳,但是当标准化样品数量增加到一定阈值时,再增加标准化样本数量对模型转移效果的影响变小。因此,选择标准化样本数量为选取的主因子数的2.5 倍或以上,在实际应用中可根据自己所能承担的成本确定合适的标准化样本数。

图8 标准化样本数对QFST结果的影响Fig.8 Effects of the number of standardization samples on QFST results

2.4 模型转移预测结果评价

在199个样本中选取100个标准化样本,剩余99个样本作为验证集样本。应用建立的QFST 法对子机S1和子机S2的验证集样本进行光谱转移,采用主机模型预测70项化学指标,采用预测效果最佳的主因子数,其中,S1的主因子数选取22个,S2的主因子数选取28 个。将SEC 和R2作为模型预测结果的评价指标,两个子机光谱在不同模型转移方法下化学指标的R2统计详见表1和表2。

表1 子机S1光谱在不同模型转移方法下化学指标的R2统计Tab.1 The R2 statistics of chemical indices of the slave S1 spectra by different model transfer methods (个)

表2 子机S2光谱在不同模型转移方法下化学指标的R2统计Tab.2 The R2 statistics of chemical indices of the slave S2 spectra by different model transfer methods (个)

从表1和表2可以看出,子机S1和S2应用QFST法进行模型转移后的预测结果整体优于直接应用主机模型对子机光谱进行预测的结果,QFST法和SST法的整体预测效果优于PDS 法,其中,QFST 法预测结果R2≥0.9的化学指标最多。对于总植物碱、还原糖、总糖、总氮和氯等常规化学成分,3种模型转移方法的预测结果R2均大于或等于0.9。与直接预测相比采用QFST法转移后预测,亚油酸、亮氨酸、酪氨酸和色氨酸等指标的R2从小于0.8提升到大于等于0.8但小于0.9 的范围;总植物碱、钾、氯、淀粉和二氯甲烷提取物等指标的R2从大于等于0.8但小于0.9提升到≥0.9;在R2≥0.9的指标里,淀粉、二氯甲烷提取物和钙离子等指标采用QFST 法后的预测结果更接近测量的结果。

由于预测结果R2≥0.9 已经达到很高的预测标准,因此,以子机S2 为例,选取QFST 方法预测结果R2<0.9的55个指标,对比分析QFST法与SST法的结果,即将QFST法得到的化学指标SEC比值和R2比值与SST法进行比较,结果见图9。SEC为化学指标的校正标准误差,因此,SEC 值越小越好,而R2值越大越好。由图9a可知,对于多酚类化合物的预测,采用QFST法与SST法转移后预测效果相近;对于有机酸的预测,从整体上看,采用QFST 法转移后预测的效果略优于SST 法;磷酸根与硫酸根的R2比值大于1,采用QFST 法略优于SST 法。由图9b 和9c 可以看出,对于氨基酸和Amadori 化合物等烟草中质量分数较低的化学成分来说,62%的氨基酸的R2比值大于1,采用QFST 法转移后预测的效果略优于SST法;88%的Amadori 化合物的R2比值大于1,采用QFST法转移后预测的效果优于SST法。

图9 部分化学指标采用QFST法和SST法的SEC和R2的比较Fig.9 Results of SEC and R2 by QFST and SST methods for some chemical components

3 结论

(1)建立了QFST 模型转移方法,并将其应用于烟草近红外预测的模型转移中,可以有效解决子机与主机间的仪器差异所带来的光谱影响。

(2)对QFST 法优化的结果表明,选取的主成分数越大,模型转移的效果越好。在实际应用中可以选择大于4甚至更大的主成分数,标准化样本数则应为选取的主成分数的2.5倍或以上。

(3)将建立的QFST模型转移法与SST和PDS模型转移法进行比较,对于烟草70 种化学指标,QFST法和SST法的模型预测效果整体上优于PDS法。应用QFST、SST 和PDS 3 种模型转移方法后进行预测,其中,总植物碱、还原糖、总糖、总氮和氯等常规化学成分的R2均达到0.9 以上。尤其是对于氨基酸和Amadori 化合物等烟草中质量分数较低的化学成分来说,采用QFST法进行模型转移后预测的效果优于SST法。

猜你喜欢
校正光谱矩阵
基于三维Saab变换的高光谱图像压缩方法
劉光第《南旋記》校正
一类具有校正隔离率随机SIQS模型的绝灭性与分布
机内校正
初等行变换与初等列变换并用求逆矩阵
星载近红外高光谱CO2遥感进展
矩阵
矩阵
矩阵
苦味酸与牛血清蛋白相互作用的光谱研究