紫外吸收光谱法的水质参数预测模型研究

2024-03-16 10:11朱永健刘金福潘晓文

科学技术创新 2024年6期

朱永健，刘金福，潘晓文*，金晶

（1.福建农林大学计算机与信息学院，福建福州；2.福建农林大学林学院，福建福州；3.福州市台江环境监测站，福建福州）

化学需氧量（COD）和浊度是监测水质的常规指标，可以反映水体中有机物污染程度和水透明度。光学法中的紫外吸收光谱法由于操作简单、分析快速以及无二次污染等优点，近年来被广泛应用于水质监测领域[1]。现有研究较多的单波长、多波长方法无法应用光谱的全部数据，但应用全光谱数据构建水质预测模型时，传统的最小二乘法（LS）和偏最小二乘法（PLS）在拟合此类复杂非线性数据时表现较差。深度学习方法具有处理大规模数据和解决非线性问题的能力，因此被逐渐应用于水质检测领域[2]。在构建基于深度学习的水质检测模型时，由于水质成分复杂多变，且样本标注成本高昂，通常难以获取大规模标注数据集。因此，为了解决训练样本少，提高使用深度学习方法构建水质参数预测模型的鲁棒性和准确性，本研究提出利用紫外吸收光谱获得的全光谱数据，建立基于小样本学习的Siamese CNN 水质参数预测模型，以提高深度学习模型在水质检测领域的实用性。

1 数据来源与模型构建

1.1 数据来源

实际水样来自于福建省闽江流域福州段，COD 浓度测定采用重铬酸钾COD 回流法，浊度浓度测定采用浊度计法。实验室标准水样来源于国家有色金属及电子材料分析测试中心提供的标准溶液稀释得到，为在实验中检验模型的泛化能力，配置的标准水样包括单参数溶液（COD、浊度、硝酸盐氮），两参数混合溶液（COD 和浊度、COD 和硝酸盐氮、浊度和硝酸盐氮）、三参数混合溶液三种类型。

紫外吸收光谱数据依据朗伯- 比尔定律，使用高利GLA600-UVN 紫外光纤光谱仪进行测量。

1.2 光谱数据预处理

在获取样本的紫外吸收光谱过程中，CCD 探头会随时间产生波动，从而引入噪声，本研究通过增加获取每个光谱数据点时的平均测量次数，降低这种噪声对结果的影响。除光谱仪内部会产生噪声外，设备的使用及光源、光路不稳定等同样会产生噪声，对于此类噪声，采用小波变换进行滤除[3]。

小波变换是把基本小波函数 ψ (t)做位移 τ后，在不同尺度 α下与待测信号 χ(t)做内积。表达式为：

转换为等效的频域表达式为：

公式（1）、（2）中，X(w) 和 ψ(w) 分别为x(t) 和 ψ(t)的傅里叶变换。

软阈值滤波得到的小波系数整体连续性较好，因此本研究使用软阈值去噪，公式为：

公式（3）中，wλ为软阈值滤波的收缩函数，s gn(w)表示W 的符号。图1 为滤波前后对比效果图。

图1 滤波前后对比图

1.3 数据增强

本文采用随机擦除（Random Erasing）方法进行数据增强，即随机遮挡训练集中一定比例的数据，且保持数据的长度不变，以提高模型的泛化能力，防治出现过拟合情况。

1.4 Siamese CNN 模型构建

孪生神经网络（Siamese Network）能够从有限的数据中学习特征。Siamese Network 可以同时对两个不同的水质光谱（光谱a 和光谱b）进行编码和特征提取，生成与水质光谱对应的特征向量processed_a 和processed_b。经过多模型对比后，本研究选择CNN 作为BackBone。CNN 特征提取后，两个特征向量将被输入到欧式距离计算层，以计算出a 和b 之间的距离（distance），并根据预设的阈值来判断它们是否相似。欧氏距离计算公式如下：

使用欧氏距离进行相似性检测可以找到与输入光谱数据最接近的样本，这为模型提供了先验知识。此外，这种将光谱数据两两组合为样本对的方法，变相地扩充了训练数据集。在数据量相对较少的情况下，通过这种方式也可以训练出具有较好性能的深度神经网络模型。

Siamese CNN 的特征学习网络结构如图2（a）所示，水质参数预测网络结构如图2（b）所示。

图2 Siamese CNN 特征学习和水质参数预测网络结构

1.5 模型评估

通过测试集水质参数识别值与真实值的相关系数R2，最大绝对误差（MAE），均方根误差RMSE 三个指标对模型的性能进行评价，R2、MAE、RMSE 按公式（5）（6）（7）计算。

式中：n 为样本量，y^ 为识别值，yi为真实值，y为样本均值。R2值越接近于1，MAE 值和RMSE 值越小，表明模型的识别效果越好。

2 结果与分析

本研究构建了以下模型用于水质参数预测：孪生全连接网络（Siamese FC）采用全连接神经网络作为特征提取网络、Siamese CNN 采用卷积神经网络作为特征提取网络，以及CNN、梯度提升决策树（GBDT）、随机森林（RF）以及偏最小二乘法（PLS）。我们对这六种模型的预测精度进行了比较，并将水样按照一定比例划分为训练集和测试集。

2.1 标准水样预测

2.1.1 同类标准水样预测

同类标准水样是指训练集和测试集的样本属于相同类型的水样。同类水样的预测是实际检测过程中最常见的情况。本研究按照3:1 的比例划分训练集和测试集，各模型在测试集上对COD 浓度的预测结果见表1。

表1 同类标准水样测试集COD 浓度预测结果

如表1 所示，Siamese CNN 的三个评价指标明显优于其他模型。通过对比COD 标准溶液和三参数混合溶液的预测精度，发现在面对更复杂的水环境时，模型的预测精度会有所下降。但与其他模型相比，Siamese CNN 的评价指标下降幅度最小，表明模型鲁棒性最优。

2.1.2 不同类标准水样预测

不同类水样是指训练集和测试集中的样本不属于相同类型的水样。仅对同类水样进行预测可能无法评估模型的泛化能力，也无法应对实际水质检测中水质参数可能发生变化的情况。因此，本研究将两参数混合溶液作为训练集，三参数混合溶液作为测试集，测试集中COD 和浊度浓度的预测结果见表2。

表2 不同类标准水样测试集COD 浓度预测结果

如表2 所示，模型预测精度较表1 普遍下降。但Siamese CNN 的降幅最小，表明该模型较其他模型具备出色的泛化能力，可以应对水质参数浓度发生变化的情况。对于浊度浓度的预测，Siamese CNN 同样表现出最佳的预测性能。

为进一步提高模型的预测精度，对训练集进行数据增强操作，随机擦除比例为0.2。数据增强后，Siamese CNN 对测试集的预测结果见表3，三个评价指标均显著提升，表明该数据增强方法可以有效提高模型的预测精度。

表3 掩膜后样本类5 测试集COD、浊度预测结果

2.2 真实水样预测

为进一步验证其实用性，将该模型应用于实际水样预测，预测结果见表4。从表4可以看出，COD 和浊度的R2均达到了0.97，表明该模型可以成功用于实际水样检测。

3 结论

基于小样本学习的Siamese CNN 模型具有较强的特征提取能力，可以实现小样本数据集的COD 和浊度浓度预测，结合数据增强方法，可进一步提高模型的预测精度。将紫外吸收光谱的全光谱数据与Siamese CNN 模型相结合，构建了一种高效稳定的水质COD 和浊度浓度预测模型。该模型具有更高的识别精度和更强的泛化能力，为在线监测水体中COD 和浊度的污染程度提供了一种新的技术支持。