三维荧光结合化学计量学识别石油污染物的研究进展*

2024-03-13 06:54宋一帆

安全、健康和环境 2024年2期

宋一帆

(中石化安全工程研究院有限公司,山东青岛 266104)

0 前言

三维荧光光谱技术是一种能够同时获取荧光强度随激发波长和发射波长变化关系的荧光技术,其数据信息量大的优势使其有望实现对复杂有机体系中荧光物质的快速识别与分析。石油作为现阶段的重要能源,在开采、加工、运输过程中极易通过跑、冒、滴、漏等途径进入海水、河流、土壤中,造成严重的环境污染[1],因此迫切需要开发污染油种的分析测定技术和鉴别方法实现对油种的快速检测与识别。石油是由脂肪烃、脂环烃和芳香烃等多种组分组成的混合物[2],其含有的芳香烃能够产生荧光响应,因而可通过三维荧光光谱法开展对石油体系的研究工作。但石油中的芳香烃种类繁杂,导致其荧光光谱出现严重的光谱重叠现象,难以实现对特定组分的定性和定量分析[3]。化学计量学方法因为能够实现以“数学分离”代替“化学分离”[4]而被广泛用于处理复杂的三维荧光光谱数据,实现对石油组分的识别和定性定量分析。

本文介绍了近年来三维荧光光谱技术和化学计量学法相结合进行石油类污染物种类识别的研究进展,着重描述了主成分分析、三线性分解算法、数字图像处理、高阶校正算法等化学计量学算法的原理、优缺点及优化过程,并提出三维荧光光谱数据解析方向算法的展望。

1 主成分分析

1.1 方法原理

主成分分析是一种掌握主要矛盾的统计分析方法,在保证数据信息损失最小的前提下,通过线性变换,以少数新的综合变量取代原有的多维变量[5],以达到将高维向量映射到维数较低的特征空间的目的。其数据处理过程是将原变量进行转换,使数据降维,所得的新变量为主成分,是原变量的线性组合,相互之间呈正交关系,互不相关[6]。然而,主成分分析类算法在分析三维荧光光谱数据时,仍然只提供对于数据的定性表征,它仅具有抽象的数学意义,几乎不包含化学信息[7]。

1.2 应用

近年来,主成分分析法被广泛应用于解析复杂矿物油样品的三维荧光光谱数据[8],其与可拓神经网络算法联用可实现对同一类型油及其风化衍生物、单一油品、混合油品的识别[9]。

尹晓楠,等[10]将三维荧光光谱法与主成分分析算法相结合应用于海面溢油源的识别。将获取的不同风化时间的光谱转化为矢量数据并计算特征峰强度比值,运用主成分分析法提取矢量数据的特征因子,综合使用特征峰比值、主成分分析的主成分因子实现对海面溢油源风化程度的判定。刘玉乐,等[11]采用主成分聚类分析法解析3种不同型号汽油(90#、93#和97#)的三维荧光特性,发现不同标号汽油的荧光数据经处理后分别处于不同的象限,结果表明该方法可定性识别汽油的种类。

尚云鹏,等[12]提出可拓神经网络结合主成分分析法对单一油品样本(柴油、煤油、汽油)的三维荧光光谱进行分类识别。运用主成分分析法对三维荧光光谱数据降维处理并将提取的统计平均值、标准差等多个特征参数进行可拓神经网络分类识别,结果表明可拓神经网络算法分析经主成分分析降维处理后的数据时,识别的效率和准确率均显著高于其直接分析油品的三维荧光光谱数据。张立国,等[13]更是结合主成分分析法和可拓神经网络算法实现了混合油品(汽油、柴油)的种类鉴别和浓度测量。

孔德明,等[14]对比了运用主成分分析和稀疏主成分分析方法对所得不同种类油品(柴油、航空煤油、汽油、润滑油)的三维荧光光谱数据进行特征提取后进行分类识别的准确率。研究发现,稀疏主成分分析法得到的提取信息进行油品分类时可以明显提高模型识别的准确率,表明优化后的算法所提取的特征参量更具代表性,能够有效减少非必要数据的影响。

2 三线性分解算法

2.1 方法原理

对于三维数据的分析可以采用三线性分解算法,三线性分解算法的显著优势是分解结果的“唯一性”以及“二阶优势”,即当预测样品中含有校正样品不存在的干扰组分时仍然可以对感兴趣组分进行准确分辨[15]。常用于三维荧光光谱数据分析的三线性分解算法有平行因子分析(PARAFAC)、交替惩罚三线性分解(APTLD)和自加权交替三线性分解算法(SWATLD),其中最为典型的是平行因子分析。平行因子分析是一种基于交替最小二乘原理实现多维数据矩阵分解的算法[16]。该算法对多维数据分解的过程见式(1)。

(1)

式中:i——激发波长的个数,1,2,……,I;

j——发射波长的个数,1,2,……,J;

k——实验样本的个数,1,2,……,K;

xijk——三维响应矩阵X中的元素;

ain——相对激发矩阵AI×N中的元素;

bjn——相对发射矩阵BJ×N中的元素;

ckn——相对浓度矩阵CK×N中的元素;

eijk——残差矩阵EI×J×K中的元素;

N——矩阵AI×N,BJ×N,CK×N的列数[17]。

在三维荧光分析中,PARAFAC模型有实际的化学意义,实验样本测得的荧光光谱数据组成I×J×K型的三维响应矩阵X。当用三线性算法分解三维荧光数据矩阵时,需先采用对半分析、残差分析、核一致分析等方法确定拟合三维荧光数据矩阵的三线性模型时所需要的最小因子数后,再对三维荧光数据矩阵进行分解[18]。

2.2 应用

将平行因子分析法用于解析泄漏石油的荧光激发发射矩阵,运用核一致法和残差分析法对组分数进行估计,可以识别出石油污染物中典型的包括苯、甲苯、萘、蒽、菲等在内的石油组分[19-23],因而被广泛应用于跟踪、监测石油类污染物的演变。此外,该方法与模式识别算法相结合,可用于石油污染物种类识别。

周艳蕾,等[24]将平行因子算法应用于海上溢油油品(原油、燃料油)三维荧光光谱数据的解析,获得油品荧光成分组成,通过聚类分析算法构建荧光标准谱库后与非负最小二乘法联用实现油品种类的快速识别。

考虑到三维荧光光谱法具有便携、快速的优点因而将其用作油品的初步筛选以作为气相色谱质谱法(GC-MS)的补充,MIRNAGHI,等[25]利用平行因子算法建立了包含轻质、中质、重质原油,燃料油,沥青和柴油在内的100多个油样的三维荧光指纹模型并对上述油品进行分类,其分类结果用GC-MS得到了验证,证明平行因子结合三维荧光的方法可以作为常规GC-MS指纹识别的补充。

孔德明,等[26]利用平行因子算法处理包括柴油、航空煤油、汽油、润滑油在内的单一油品样本的三维荧光数据矩阵,运用主成分判别分析(PCA-LDA)算法、K最近邻(KNN)算法以及偏最小二乘判别分析(PLS-DA)算法分别建立的分类模型对待测样本进行识别且识别准确率分别高达90%,85%和94%,表明三维荧光光谱技术结合平行因子分析算法和模式识别方法可快速识别矿物油种类。但是上述方法中的模式识别算法仅对平行因子校正方法解析得到的浓度得分矩阵进行分类,并没有利用具有定性意义的载荷矩阵,即只利用样本所含化学成分的相对含量差异对样本进行了分类,并没有从样本所含化学成分本身实现对样本的定性。因此,崔耀耀,等[27]提出建立同时考虑样本化学成分相对含量以及化学成分本身差异的分类模型。利用平行因子分析算法重构去除异常光谱的剩余光谱,重构光谱同时包含浓度得分矩阵和载荷矩阵,通过偏最小二乘判别分析(PLS-DA)建立基于重构三维荧光光谱的分类模型。结果表明,相较于以未重构的三维荧光光谱建立的模型对单一油品样本(汽油、柴油、航空煤油、润滑油)的识别准确率分别为100%,50%,60%和20%,基于重构三维荧光光谱的分类模型对4种油品的识别准确率均高达100%。

陈晓玉,等[28]将三维荧光偏导数光谱与平行因子算法结合,提出了一种混合油品(航空煤油、润滑油)组分准确检测的方法。证明在混合油品三维荧光光谱三线性较差的情况下,利用平行因子算法对Savitzky-Golay求导得到的三维荧光偏导数光谱的进行解析,能够显著提高解析谱和标准谱的拟合效果,提高组分定性检测的准确率。陈至坤,等[29]利用交替迭代最小二乘法原理改进平行因子算法,弥补其存在的迭代收敛速度慢,对组分数敏感的缺陷。用改进后的平行因子算法分析混合油品(煤油、柴油、汽油)的三维荧光光谱数据,结果表明改进后的算法分解得到的激发发射光谱图效果更好,组分识别更准确。

平行因子分析是采用交替最小二乘原理的迭代类型三维树阵分解算法,该算法能够在干扰存在下对特定组分进行定量测量,但其仅在正确估计组分数的情况下才能得到精确的解。自加权交替三线性分解算法则对组分数不敏感,稳定性高。因此,程朋飞,等[30]采用自加权交替三线性分解算法对汽油、柴油混合溶液的三维荧光光谱数据进行分解,发现采用该算法定量分析预测所得的油品浓度准确率高,表明其对混合油类物质有较高的分辨能力。孔德明,等[31]利用交替惩罚三线性分解算法(APTLD)解析混合油液样本(航空煤油、润滑油)的三维荧光光谱数据所得油品的荧光光谱与油品本身真实的荧光光谱相似度高,表明该算法可实现对混合油液中油品成分的准确识别。

3 数字图像识别

3.1 方法原理

近年来,数字图像识别方法已被应用于处理通过三维荧光技术、高效液相色谱耦合二极管阵列检测技术(HPLC-DAD)[32]等获取的高维数据。图像的基本属性是形状,因此利用包括Zernike矩、Geometric矩、Legendre矩、Tchebichef矩等构成形状的像素来提取灰度图像的特征信息可以描述具有复杂边界的形状。以Zernike矩为例,Zernike矩的优点包括稳定性、抗鲁棒性、运算速度快等[33]。以f(x,y)为数字图像的密度分布函数,Zernike矩(Znm)的表达式如式(2)～(4):

其中:x2+y2≤1

(2)

(3)

(4)

式中:n——非负整数;

m——正整数或负整数;

Vnm*——共轭复数;

Vnm(ρ,θ)——计算Zernike矩的变换核,将归一化的像素坐标映射到极坐标下;

k——0～(n-|m|)/2之间的整数变量;

θ——0～2π之间的角度;

Rnm(ρ)——(ρ,θ)极坐标下的Zernike径向多项式。

3.2 应用

同种矿物油在不同溶剂中的三维荧光光谱峰的峰位置、荧光强度均会出现一定程度的改变,这增加了矿物油种类鉴别的难度。考虑到组分种类及含量相近的油样光谱特征相似度高,光谱形状的变化规律随组分及含量的改变也较为明显,因此,常采用数字图像识别算法获取油品的三维荧光光谱数字图像特征用于油类样本的分类识别。

杨子臣[34]将单一油品(机油、柴油、汽油)的三维荧光谱图解释为一个目标在不同场景下的图片,利用Scale Invaritant Feature Transform(SIFT)算法解析不同油品对应的图片,提取矿物油三维光谱指纹图特征,构建不同油品的SIFT特征集合。在所设置的阈值范围内,将未知油品的指纹图与各个SIFT特征集合相匹配,成功实现对单一油品种类的鉴别。

孔德明,等[35]提出了一种基于三维荧光光谱和数字图像识别的混合矿物油品种类识别方法。利用求导及灰度化预处理将荧光光谱仪获得的样本的三维荧光光谱数据转化为三维荧光导数光谱灰度图,利用Zernike矩提取灰度图的形状、纹理、颜色等数字图像特征,通过Fisher判别分析建立的混合矿物油样本分类模型能够对混合油样本进行分类和识别,实现对样本的定性分析,通过逐步回归建立的混合油样本各组分定量模型的线性关系显著,相关性R大于0.99,能够实现对样本中特定组分的准确定量。

4 高阶校正算法

4.1 方法原理

高阶校正算法通过引入新维度的信息来构建高维数据矩阵,能够包含更加完整的数据特征信息,理论上,对于多种物质混合组成复杂体系中感兴趣组分的定性定量结果也应更准确[36]。以交替惩罚四线性分解(APQLD)模型为例,该模型是在三线性分解模型的基础上将其扩展为四维得到的。在三维荧光光谱数据分析中,在选定的激发和发射波长范围内,利用荧光光谱仪测量一个样本的荧光光谱数据,得到阶数为I×J的二维光谱矩阵,其中,I为激发波长扫描个数,J为发射波长扫描个数,在所设定的L个实验条件下,对同一样本进行测量,得到阶数为I×J×L的三维光谱矩阵,最后将K个样品的三维光谱矩阵叠加,即可得到阶数为I×J×L×K的四维光谱矩阵X。利用四线性分解算法对四维光谱矩阵进行分解,表达式见式(5):

(5)

式中:xijlk——四维响应矩阵X中的元素;

ain——相对激发矩阵中的元素;

bjn——相对发射矩阵中的元素;

cln——相对浓度矩阵中的元素;

dkn——第四矩阵中的元素;

eijlk——残差矩阵中的元素。

4.2 应用

三维荧光光谱数据通常用主成分分析、三线性分解、图像识别等二阶校正算法进行处理,二阶校正算法可以在有未知干扰物存在的情况下对感兴趣组分进行定性、定量分析。但对于多种类混合的油类污染物,其光谱重叠严重,而高阶校正算法除具有“二阶优势”外,还具有更高的选择性和灵敏性,可以更好地解析高共线性和背景干扰的重叠光谱。

杨哲,等[37]提出在三维荧光光谱中增加一维温度信息构造激发波长-发射波长-温度-样品的四维荧光光谱数据阵列,利用四维平行因子算法(4-PARAFAC)和交替惩罚四线性分解(APQLD)算法进行三阶校正分析。结果表明采用三阶校正算法解析增加温度维度的四维荧光光谱能显著提高混合油品样本(柴油、汽油、机油)中单一油品种类的识别和浓度的精确检测。

王玉田,等[38,39]通过Savitzky-Golay多项式将三维荧光光谱法得到三维数组叠加而成的五维数组,然后运用展开偏最小二乘法/残差四线性分析 (U-PLS/RQL) 四阶校正算法解析五维数据并建立校正模型,结果表明尽管平行因子法和展开偏最小二乘法均能实现对混合油品(汽油、煤油、柴油)样本中单一油品组分的识别和浓度预测,但偏最小二乘具有四阶算法的优越性,分析结果更准确。

5 其他校正算法

PARAFAC基于严格意义上的最小二乘原则,具有抗噪声强、模型稳定、微小预期误差等优点,可以实现三维数据阵列的最佳拟合,但该算法收敛速度较慢,对组分数敏感。ATLD算法通过提取对角主元和切尾奇异值求解广义逆,极大提高了收敛速度并降低了对组分数的敏感度,从而实现三线性分解。然而,取对角元时易使ATLD方法对噪声敏感。SWATLD算法既继承了对组分数不敏感、收敛速度快等优点,又降低了噪声水平的影响。但是在抗共线程度方面,SWATLD算法在抵抗共线性程度方面的能力较ATLD略有降低。

基于此,CHEN,等[40]为了实现二阶校正算法的优势互补,提出了三线性迭代方法的组合算法(Algorithm Combination Methodology,ACM),将PARAFAC、ATLD和SWATLD算法组合在一起来对混合矿物油(柴油、汽油、煤油)样品的三维荧光光谱数据进行解析,结果表明,该组合算法能实现对油品种类的识别。

MARYAM,等[41]首次运用快速、无损的傅里叶变换近红外光谱和三维荧光光谱技术表征润滑油,结合偏最小二乘判别算法提取光谱特征来识别润滑油的种类,并将分类识别结果应用于评价润滑油的使用效率。TIAN,等[42]运用奇异值算法提取油品样本(汽油、煤油、润滑油、原油)三维荧光光谱数据的统计特征(平均值、标准差、重心等),结合聚类分析法成功实现对上述油品样本的识别且准确率高达90%。和采用主成分分析算法提取石油样本的三维荧光谱图特征相比,二维线性判别分析(2D-LDA)算法在数据处理过程中能够保证同类样本尽可能接近的同时不同类样本尽可能分离,因而使得经2D-LDA降维后的数据更易被区分。孔德明,等[43]采用2D-LDA法提取包括柴油、汽油、航空煤油、润滑油在内的4种不同油品样本的光谱特征,利用K最近邻(KNN)算法根据结合了发射和激发光谱特征的数据建立分类模型,结果表明该模型对样本分类的准确率为100%,显著优于采用PCA进行特征提取时85%的识别准确率。姜聪聪[44]利用小波变换方法将样本(原油、燃料油)的三维荧光光谱分解为多个反应不同信息的小波函数,选取其中与待测组分有关的小波函数作为特征变量进行Bayes判别分析,成功实现原油、燃料油的识别。LV,等[45]利用小波神经网络算法(WNN)在EEMs的基础上,得到矿物油的种类与奇异值特征向量之间的映射关系。实验结果表明,小波神经网络能够实现对不同矿物油的识别,识别正确率达到95%。

BRO,等[46]基于三线性分解和偏最小二乘法提出二阶校正算法-三维偏最小二乘法(three-way Partial Least Squares,tri-PLS),王玉田,等[47]利用该方法解析混合油品(柴油、汽油、煤油)样本的三维荧光光谱数据,并对混合样本中各组分的油品浓度进行了预测。结果表明相较于平行因子二阶校正算法,tri-PLS的建模效果和预测精度均有显著提高。DIVYA,等[48]运用N-way partial least squares regression(N-PLS)解析柴油-煤油混合溶液的三维荧光光谱数据,结果表明,相较于平行因子算法和展开偏最小二乘回归(unfold PLS),N-PLS由于同时考虑了光谱信息和浓度信息而具有最高的识别准确率。

6 方法对比

主成分分析算法在分析数据时提取关键特征变量替代多维变量的过程中会损失一些成分信息,使其难以用于灰色体系中成分含量的测量。面对当下日益复杂的分析体系,三线性分解算法等二阶及更高阶校正算法可以实现未知干扰共存下,对感兴趣组分的定性分析,因此其在油品泄漏领域的应用趋势显著提升。但对于处理不严格服从三线性、多重共线性类数据时,现有解析算法普遍存在收敛速度慢、结果偏差大等缺陷。4类化学计量学算法对比如表1所示。

表1 4类化学计量学算法对比

7 展望

鉴于以上分析,后续三维荧光与化学计量学结合应用于石油类污染物识别的工作应围绕以下方面开展:

a) 继续开发新型高阶校正算法,满足高阶数据分析需求,确保能够实现对于丰富的高维数据快速、准确解析。

b) 持续开发针对油品泄漏监检测的新方法、新技术,包括且不局限与光谱法、色谱法,与化学计量法结合实现油品精准识别。

c) 进一步优化包括线性分解等在内的经典二阶校正算法,提高经其解析后数据的可靠性、稳定性和特异性,便于其与模式识别算法结合以建立油品识别模型。