基于回归CNN的烟叶近红外光谱模型研究∗

2019-02-27 08:31宗倩倩丁香乾宫会丽
计算机与数字工程 2019年2期
关键词:烟碱光谱卷积

宗倩倩 丁香乾 韩 凤 宫会丽 张 磊

(1.中国海洋大学信息科学与工程学院 青岛 266100)(2.山东烟草研究院有限公司信息技术研究中心 济南 250001)

1 引言

农产品、药材及烟草等原料主要化学成分含量很大程度上能够表征其内在品质,对它们的选种、种植及加工过程具有关键的指导意义,因此原料化学成分定量预测的准确性至关重要。近红外光谱分析技术因其快速、样品非破坏性、无污染等优点得到迅速发展,烟草行业利用此技术实现了对烟叶原料化学成分的定量分析[1~5]。

近红外定量分析方法主要有主成分回归(PCR)、多元线性回归(MLR)、偏最小二乘回归(PLS)、支持向量机(SVM)、人工神经网络(ANN)等,采用这些方法进行烟叶化学成分的定量分析,在应用中取得了很好的进展和成就,但是随着应用的逐渐深入,这些方法也暴露出许多问题,诸如:MLR会遇到共线性问题和输入变量个数的限制问题、PCR不能辨别噪声或有效信息且运行速度较慢、PLS不能有效处理非线性问题、ANN模型复杂,容易出现“过拟合”现象等。为了构建烟叶近红外光谱与化学成分间复杂关系的模型,国内外研究学者提出了将线性与非线性方法混合使用的混合算法。例如,陈达等[6]提出了基于PLS和ANN的混合算法的非线性模型,结果表明该非线性模型得到了较高的预测精度;李世勇等[7]采用最小二乘支持向量回归(LSSVR)法和PLS,以192个烟叶数据来训练模型,分别建立了烟叶总糖含量的近红外预测模型,并用95个烟叶样品去测试模型性能,结果表明LSSVR具有更好的准确度和稳健性;L.J.Janik等[8]利用PLS与NN相结合来建立定标模型,把相对较少的PLS主成分得分矩阵当做神经网络的输入,预测值当做目标函数,结合了PLS定量建模的鲁棒性和NN非线性逼近的能力。混合算法中,与PLS相结合的多是诸如SVM,ANN的浅层结构算法,其局限性在于不能完全考虑特征的空间分布,而且不能得到更深层次的特征表示,针对复杂问题其泛化能力受到一定制约。

为了能够更深层次挖掘出原料近红外光谱中对化学成分定量分析起关键作用的特征信息,本文利用卷积神经网络能充分考虑特征的空间分布,减少数据维数并能够在保持光谱数据空间拓扑结构的基础上学习光谱数据的更深层次的抽象特征的优势,提出了基于回归的卷积神经网络算法。它利用CNN来近似抽象近红外光谱数据的分布,然后逐层提取、逐渐抽象近红外光谱对应预测指标的本质特征,更深层次挖掘对应吸收峰表征的信息,并将CNN顶层的分类器改为回归器,以构建定量回归预测模型,预测性能得到了进一步提升。

2 基于回归的卷积神经网络算法

2.1 卷积神经网络

CNN在图像识别领域[9~10]取得辉煌成就的关键原因是其在特征提取方面的突出优势[11],其结构图如图1所示,其中卷积层和池化层构成的特征提取器是重要结构。它提取特征并不采用人们的直觉,而仅仅依赖于训练数据基于反向传播的训练过程,该过程旨在自动地学习过滤器的权重,使得它们能够从输入数据中提取更加抽象和本质概念,进一步提高预测准确性。

CNN基于三个重要的思想:局部感知、权重共享、空间/时间采样。卷积层通过由训练参数组成的不同卷积核与输入数据做卷积操作来提取不同特征,在该操作过程中参数是共享的,不仅减少了参数的数量,而且提高了网络的泛化能力。池化层对卷积层的输出特征数据进行子抽样,若CNN中池化层卷积核大小为k,池化操作是将卷积层的输出特征数据缩小(k*k)倍,一般选用max pooling和mean pooling两种池化方法。

图1 传统的卷积神经网络结构图

卷积层卷积操作如式(1)所示:

经过一系列卷积和池化操作得到的特征数据将经过全连接层与输出层相连,全连接层的操作为式(2)所示:

经过一系列卷积和池化操作得到的特征数据将经过全连接层与输出层相连,全连接层的操作为式(2)所示:

式中:yj和xi分别代表n输出向量的第j个神经元和m维输入向量的第i个神经元,w是一个m*n的权重矩阵,b为偏置,f()采用Sigmoid函数。

CNN采用梯度下降法来更新权重的,其核心公式为误差代价函数对参数的梯度,称为灵敏度。卷积层的灵敏度为

式中:βj为卷积核的值,up为上采样操作,跟选的池化方法相关,ul=Wlxl-1+bl。

2.2 改进的回归卷积神经网络

模式识别中,CNN相对于传统方法的显著优势在于提取特征的同时可以减少数据维数并在网络结构中分类。CNN的优势可以用来处理具有高维、高冗余及非线性等特征的光谱数据。通常,在以图像作为输入的CNN结构中,由于像素的强度经常是临近像素的均值,并且接近均值的概率很大,所以在卷积层后边加了池化层。但对于光谱数据高噪、谱带归属困难等特征,使得光谱数据并无明显的邻域特征,所以改进的CNNR算法移除了池化层。

CNN通过在网络结构中设置池化层卷积核大小压缩特征数据,若将池化层卷积核设为1,那么经过池化操作对输入特征数据大小没改变,但是会使网络运行时间延长,所以改进的CNNR算法直接创建只有卷积层和全连接层的网络,并把输出层函数改为Sigmoid函数。由于池化操作仅使输入特征数据的维度变小而不改变样本数量,所以去掉池化层并不影响网络各层的操作。

CNNR依然采用反向传播算法来调整参数大小,与传统的CNN不同的是,反向传播过程中由于CNN卷积层后边是池化层,所以会先在池化层的特征数据上进行采样,使得与前边卷积层特征图大小一致,先按式(3)计算灵敏度再调整权重和偏置。但改进的CNNR算法没有池化层,无需进行上述采样操作而直接计算灵敏度,据式(3)将卷积层的灵敏度改为式(4),且卷积核的权重以及偏置更新公式为式(5)和式(6):

式中:(pil-1)uv是xli-1做卷积操作时与kilj逐个元素相乘所得值,u、v是位置信息。

传统CNN算法由于运行时间长以及对内存要求过高的问题在实际应用中存在困难,主要原因是完全连接层占据了90%的权重,卷积层占据了90%以上的运行时间[12],这意味着如果想要最小化运行时间和存储空间,那就必须将完全连接层和卷积层的数量最小化。受到以上所述的启发,本文将采用含有两层卷积层和一层全连接层的网络架构,考虑到回归问题具有特殊性,它需要较大的卷积核来提取整体数据的特征,通过多次实验发现第一、二层卷积层的卷积核大小分别为10和6,卷积核个数分别为20和40时不仅运行时间达到最小,而且拟合效果较好。

传统的神经网络采用反向传播算法作为训练准则的核心之一,这很容易陷入局部最优[13]。当神经网络架构变深时,这种缺点变得很明显,因为在这种情况下存在大量要优化的参数。缓解深架构神经网络局部最小困境的一种有效的方法是将参数初始化到尽可能高的程度[14],如果参数被初始化非常接近搜索空间中的最优状态,则找到全局最优的机会大大增加[15]。为使网络最大可能找到全局最优,开始时使卷积核权重由服从[-0.1,0.1]上的均匀分布函数随机产生,偏置由Rand(0,1)函数随机产生,学习率设为1。

改进的回归卷积神经网络的训练过程具体步骤如下:

step 1:建立改进的回归卷积神经网络并初始化该网络涉及的参数,包括网络层数、卷积核的权重W、偏置b及网络学习率r,迭代次数等参数;

step 2:取经过预处理的训练样本的光谱数据x及其对应的烟叶化学成分的实测值yi输入到网络,对X执行操作1,得到卷积层的输出特征图;

step 3:经过一系列卷积操作把输出特征图即学习到的深层次的特征连接成一个矢量馈送到全连接层执行操作2,然后将输出值作为回归函数的输入,对训练样本进行预测并得到它们的预测值

step 4:计算n个训练样本的误差,公式为

step 5:据式(5)和式(6)来调整卷积核的权重和偏置;

step 6:判断迭代次数是否超过最大迭代次数,如果没有超过,返回执行step 2~5,若超过,保存权重和偏置并退出训练过程。

3 实验仿真分析

为了验证基于回归的卷积神经网络算法在原料化学成分近红外光谱模型方面的有效性,本文应用国内某烟草企业提供的396个烟叶样品,采用基于回归的卷积神经网络算法构建烟叶近红外光谱对化学成分的预测模型,并对所建的总糖、总烟碱及氯指标模型进行了测试与分析。

3.1 样品数据

本研究中的396个烟叶样品数据来自山东、云南、贵州和广西四个产区,并尽可能涵盖企业卷烟配方使用的烟叶原料范围,各检测指标值均由连续流动分析法检测得到,总糖数据分布在15%~38%之间,总烟碱主要分布在0.9%~4%区间内,氯离子分布在0.2%~1.6%之间。以Kennard-Stone方法将样品数据进行划分,从中选取300个烟叶样品来构建CNNR定量预测模型,用其余的96个烟叶样品作为外部测试集,验证模型的预测性能。供试样品情况如表1所示。

表1 供试样品详细信息

3.2 实验仪器与分析软件

本文实验采用的仪器是AntarisⅡFT-NIR分析仪(美国ThermoFisher公司分子光谱部),配备积分球漫反射采样系统,InGaAs检测器。设置烘箱温度为40℃,将本研究中的396个样品放在烘箱中烘干4h,取出样品直接粉碎研磨,过筛60目,装入密封袋中密封并在常温下避光保存24h。在温度18℃~21℃的条件下,取每份烟末样品15g于干净的样品池中,轻轻放置压样器,把每个样品放置在上述分析仪中采用漫反射方式重复扫描三次,并取三次的平均值当做最后的实验光谱数据。

Matlab 2010a和Unscrambler9.7为数据分析工具。应用Unscrambler软件进行光谱解析,基于Matlab 2010a构建CNNR算法和PLSR算法的烟叶化学成分定量预测模型。

3.3 光谱数据预处理方法

由于近红外光谱中含有许多对光谱信息产生干扰的冗余信息,为了提高模型预测的准确性,模型构建前必须对光谱数据进行预处理,本文采用了平滑,求导,标准归一化和谱段选择这几种技术。

由于近红外光谱中有很多重叠谱峰,因此建模前需要采用求导处理来消除基线平衡、漂移的干扰,但导数处理也会放大光谱信号,噪声信号也会被放大,所以对光谱求导后,需要对光谱数据采用平滑处理来减弱乃至消除谱图噪声、提高信噪比,本文采用Savitzky-Golay算法[16]。为了消除指标之间的量纲影响与变量自身变异大小和数值大小的影响,需要对光谱数据做标准归一化处理。将做过上述数学预处理的光谱进行谱段选择再进行建模,可获得理想效果。

3.4 模型评价方法

预测模型通过训练集交叉验证均方根误差RMSECV、测试集均方根误差RMSEP、平均相对误差MRE以及实际检测值与模型预测值的相关系数R来定量评价。一个好的模型应该具有较高的R值,较低的RMSECV值、RMSEP值和MRE值。它们计算方法如下所示:

式中:yˆi是模型预测值,yi是实际检测值,n是样本个数,

3.5 结果与分析

3.5.1 内部交叉验证

为了从光谱数据中提取充分有效的信息,尽可能消除导数的影响,必须进行预处理。在本文中,一阶导数(1st derivative),二阶导数(2nd derivative),平滑点数,标准规范化向量(SNV)和不同谱段的选择来实现CNNR预测模型构建的组合优化过程。以总烟碱为例,以x-loading图来选取建模谱段。

图2 总烟碱的x-loading图

根据图2选取4400-4200cm-1为总烟碱的建模谱段,选取谱段后对光谱运用各种预处理组合方法进行建模,多次实验对比结果如表2所示。

表2 总烟碱的预处理组合实验对比结果表

从表2可以看出,固定规范化向量和平滑点数不变时,对光谱采用二阶导数时,模型的RMSECV值较小,而且当平滑点数为15,RMSECV达到最小。

采用相同的思路分别对总糖和氯离子选择最佳模型预处理组合方法组合,比较RMSECV的大小得出CNNR最佳模型的不同预处理组合方法结果如表3所示。

表3 CNNR最佳模型的预处理组合方法

采用最佳的预处理组合方法处理光谱数据并用设定好的CNNR各参数构建各指标的定量模型,重复进行实验并记录每次实验对应的总误差大小,当总误差达到最小时将其视为最佳模型。在实验过程中发现运行到5000次后总误差趋于稳定,修改CNNR模型的迭代次数为5000次,极大程度减少了运行时间。总烟碱最好模型总误差变化图如图3所示。

图3 总烟碱模型总误差变化图

图3显示了总烟碱模型训练过程中总误差的变化趋势。可以看出,在循环的开始阶段,总误差急剧减少,这是因为反向传播算法为了达到最大可能性的CNNR模型参数采取了较大的步长。在训练过程的进一步阶段,训练总误差变化逐渐平缓,这表明网络正在趋向收敛,到最后都降低到总误差值稳定的程度,这时网络已经完全收敛。

总糖、总烟碱和氯离子三个指标按照最佳参数进行建模,它们最佳模型的交叉验证性能图分别如图4~图6所示。

图4 总糖模型交叉验证性能图

图5 总烟碱模型交叉验证性能图

图6 氯离子模型交叉验证性能图

图4~图6分别给出了总糖、总烟碱和氯离子构建的CNNR内部交叉验证的真实值与预测值的散点拟合图,横坐标是实际检测值,纵坐标为模型预测值,比较直观地反映出所建模型的效果。可见,所建模型的拟合效果较理想,大部分样品均匀分布在拟合线附近,样品实际检测值与模型预测值呈较明显的线性相关。

3.5.2 外部验证

用CNNR构建的最佳模型进行外部测试集预测,预测集的RMSEP、MRE和R对比表如表3所示。

表4 CNN模型评价指标结果

从表4结果看出,CNNR对三个指标的预测结果均较好。各指标的相关系数R均大于0.93,且预测相对平均误差MRE均小于5%,说明采用CNNR模型预测的化学值与连续流动自动分析仪的测量差异较小。CNNR模型在预测原料化学成分时能够充分考虑光谱数据本质和抽象的信息,准确地分析原料中不同化学成分,为以后准确进行原料化学成分定量分析提供了全新技术支持,在以后的实践中有很大的发展前景。但同时CNNR作为一种神经网络,其计算量大导致运行时间较长,且若训练数据过少容易出现“过拟合”的问题,所以CNN更适合处理数量多且复杂的数据。

4 结语

本文提出的作为一种深度学习的基于回归的卷积神经网络预测原料化学成分研究,与传统近红外定量建模方法相比,它在抽取原始数据更加本质和抽象特征上具有得天独厚的优势,经过方法有效性论证和实际数据测试均验证了该方法的有效性,为进行原料化学成分定量分析提供了一种新思路。使用本文提出的回归卷积神经网络算法能够和近红外光谱数据有效结合,抽取的特征对光谱数据有很强的解释能力,同时对原料化学成分有最佳综合表达能力,提升了原料化学成分定量分析的预测精度,为原料化学成分的定量分析提供了稳定和有效的方法支撑。

猜你喜欢
烟碱光谱卷积
基于全卷积神经网络的猪背膘厚快速准确测定
基于三维Saab变换的高光谱图像压缩方法
基于3D-CNN的高光谱遥感图像分类算法
α7-烟碱乙酰胆碱受体在肺癌发生、发展及治疗中的作用
金卤灯太阳模拟设备中滤光片的设计
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
基于客户需求的打叶复烤柔性均质化加工研究与应用
一种并行不对称空洞卷积模块①
全球75%蜂蜜受杀虫剂污染