基于图神经网络聚类的土壤监测点位优化

2024-03-16 10:10陈志奎杨志朋陈轩
环境保护与循环经济 2024年1期
关键词:高维原始数据点位

陈志奎 杨志朋 陈轩

(1.大连理工大学软件学院,辽宁大连 116620;2.大连理工大学辽宁省泛在网络与服务软件重点实验室,辽宁大连 116620)

1 引言

目前土壤污染已成为影响生态环境和人类健康的重要问题之一。土壤监测是了解土壤污染状况、评估土壤污染风险、制定防治措施的重要手段[1]。然而,监测点位布设不合理、监测参数选择不当等,导致土壤监测结果不够准确、科学,甚至失去监测的实际意义[2]。因此,土壤监测点位优化是当前土壤污染监测和治理工作的重要课题。优化监测点位布局可以提高土壤监测效率,减少监测成本,同时也可以更好地反映土壤污染的实际情况,为土壤环境保护和治理提供科学依据。针对监测点位的布设[3-4],2004 年国家颁布了《土壤环境监测规范》[5],该规范对土壤监测流程及土壤采样、布点数量进行了详细说明,并提出了3 种有效的布点方法,即随机布点法、分块布点法、系统布点法[6]。然而这3 种方法都是基于土壤监测区域整体的网格布点,并不考虑点位冗余性问题,所谓冗余点位,即去掉此点位前后,监测的土壤区域反映出相近的污染指数。基于此,为降低点位冗余,在环境监测点位优化中常使用聚类算法[7-8]。

吴松涛[9]在水质监测点位优化中使用欧式距离聚类,将原始的12 个监测点位优化至5 个点位,在保证优化前后具有相同的污染指数的同时,大大节省了人力物力。随着深度学习的发展,监测点位优化方法出现了新的思路,在大气环境监测点位研究中[10],以选择最大污染物综合浓度值、最大贴进度等数据为目标,基于BP 神经网络算法对大气环境监测点位推理,进行多目标优化研究,在约束条件下利用BP神经网络求取最优解,优化监测点位布局方式。李幔等[11]针对大气点位数据易缺失的情况,提出一种基于BiLSTM 神经网络的聚类优化方法,在数据缺失的情况下,通过推理对数据进行补全,然后再进行聚类,提升了聚类算法的性能。在水质环境监测点位研究中,张镝等[12]基于自编码器对原始数据进行降维,并对降维后的数据采用层次聚类方法,以实现点位优化。

上述环境监测点位优化方法仅考虑了高维度数据特征的提取,从而降低原始数据中的噪声,以便获得更好的聚类结果,然而,真实的土壤监测点位数据不仅包括高维度的数据表示,还包括点位结构特征,例如监测点位的地理位置等。这些结构特征可以被视为监测点位之间的空间关系,在地理位置上接近的监测点位往往具有相似的污染程度。图神经网络可以利用这种空间关系来预测监测点位之间的相似性和差异性。具体而言,可以将监测点位的结构特征视为图的节点,并构建一个以监测点位之间空间关系为基础的图结构,进而使用图神经网络发掘节点之间的相互作用和关系,得出更为合理的点位优化结果。因此,基于图卷积网络(GCN)并结合自编码器(Auto-Encoder),同时利用监测点位数据的结构特征和高维特征表示,可以实现更精准的土壤监测点位优化。

2 图神经网络聚类点位优化模型

本文旨在解决土壤监测点位的优化问题,以减少冗余性并提高代表性。为此,采用聚类算法对反映相似污染指数的点位进行归类。然而,原始土壤污染数据中存在各种噪声,直接使用聚类算法会导致不精确的聚类结果。因此,在进行聚类之前,需要去除原始数据中的冗余信息,即提取数据的高维特征。为了解决这个问题,采用自编码器[13-14]实现,自编码器可以更好地学习非线性映射关系,将复杂的原始数据映射成高维特征,并通过从高维特征中重构原始数据来去除数据中的噪声影响,从而获得原始数据中最本质的特征。另外,原始监测点位数据中常包含地理位置等结构信息,这些结构信息对于监测点位优化至关重要。图数据可以很好地表示原始数据中的结构信息,为此,采用图神经网络[15-17],将各个监测点位数据作为图节点,节点之间的位置结构关系等作为边,来构建监测点位结构图。利用图神经网络更新节点特征,以获得更好的高维特征表示。

2.1 高维特征获取

自编码器是一种无监督方法,不需要标注数据,因此,本研究使用自编码器来对原始数据获取高维特征表示,去除原始数据中的冗余信息。自编码器网络包括编码器和解码器两部分,编码器将原始数据降维至固定大小的特征表示,假设编码器包含L 层,则第l 层的特征表示如下:

式中,E 表示每层的特征;W 为第l 层的权重矩阵,为可训练参数;b 为偏置项;Sigmoid 为激活函数。其中l=0 为原始数据X。

解码器部分紧跟随在编码器后,是与编码器对称的网络结构。其主要功能是将编码器编码得到的高维特征进行重建,重新得到原始数据X。

式中,D 为解码器输出的特征表示;W 为解码器第l层的权重矩阵,为可训练参数;b 为偏置项。

解码器最后的输出为重构的原始数据X^。最终通过原始输入X 和重建输入X^的F 范数作为目标损失函数L 进行特征学习,得到土壤监测点位数据的高维特征表示:

式中,N 为土壤监测点位数量。

2.2 信息聚合

该模块的主要目标是将监测点位的结构信息与编码器得到的高维特征表示[18]相结合,并在不同节点之间传播信息。信息传播模块包括2 个主要部分。首先,需要对原始监测点位建立一个监测点位结构图;其次,使用GCN 对监测点位结构图进行特征传播,以获得更全面的监测点位特征表示用于聚类。

2.2.1 构建监测点位结构图

假设有N 个原始监测点位,监测节点信息Xi包含采样位置、污染物特性等信息,对于每个监测点位,根据其节点信息,使用点位数据的点积作为相似度,选K 个距离最近的监测点位作为邻居节点,为此构建相似矩阵S∈RN×N,具体如下:

式中,Sij表示第i 个监测节点信息Xi与第j 个监测节点信息Xj的点积相似度。本研究中K 的取值为2。邻居节点之间的边权重为1,其他为0。可以获得图的邻接矩阵A,从而构建无向图G 作为监测点位之间的图数据表示,作为后续的图神经网络输入。

2.2.2 结构信息传播

由于自编码器只能提取高维特征表示,而没有考虑到监测点位的结构信息,因此采用GCN 在不同节点之间传播监测点位的结构信息。GCN 可以同时提取节点的结构特征和语义特征[19]。将构建的监测点位结构图作为输入,将节点信息融合自编码器各层的高维数据表示,能够同时利用污染点位数据的结构信息和高维特征表示。使用GCN 进行节点间信息的传播[20],对所有节点进行更新,以获得更好的监测点位特征表示。当训练完成后,GCN 可学习的表示将能够适应两种不同类型的信息,即土壤污染数据本身和土壤监测点位数据之间的空间关系。对于权重矩阵第Wl层GCN,第l 层节点表示Zl可以通过以下卷积运算获得:

式中,A 为所构建的污染监测点位图的邻接矩阵,D为度矩阵,为了能够结合自动编码器所学习到的高维数据表示E,将第l 层表示Zl和El聚合以获得信息更丰富的表示,公式如下:

式中,λ 为调节因子,取值在0~1 之间。然后图神经网络将Z~l作为GCN 中第l+1 层的输入,并在节点间进行信息传播,以生成表示Zl+1传播公式,公式如下:

最终,通过不断的节点更新,得到结合了高维特征和结构信息的表示,最后经过SoftMax 层,对表示进行聚类软分配,作为监测点位选址采样点的类别C,公式如下:

将相同类别的点位划分至同一簇,选取簇中心作为类代表点位。

3 实验分析

数据集来自某市土壤污染物的真实浓度值,土壤监测点位共计45 个,监测点位数据包括点位所在经纬度以及Cd,Pb,As,Cr,Cu,Ni,Zn 和有机质等污染物真实浓度值。

3.1 数据预处理

原始数据中,每种污染物浓度值的上下限不统一,不利于网络的训练,因此要对数据进行归一化处理,将数据映射到[-1,1]之间,使用0 均值标准化,具体如下:

式中,Z 为归一化后的数据;X 为监测点位原始数据;μ 为原始数据均值;σ 为原始数据标准差。

3.2 实验流程

实验过程如图1 所示,将原始数据进行归一化处理,处理后将数据输入到高维特征提取模块进行训练,训练好后保存自编码器的权重。然后进行图的构建,将构建好的图输入到信息传播模块,并结合自编码器的每层输出进行特征聚合,得到最终的表示,将最终表示输入到SoftMax 模块,得到每个点位特征的最终类别,将同一类的点位作为一簇,选取簇中心为代表点位,抛弃簇中其他冗余点位。

图1 基于图神经网络的土壤点位优化模型

3.3 评价指标

采用F 检验法—方差齐性检验和t 检验法验证原点位与优化后点位之间是否具有一致性。F 检验结果见表1,在给定α=0.05时,F 计均小于F 表。

表1 F 检验结果

进一步验证一致性,进行双样本t 检验。验证优化前后点位之间是否具有一致性,检验结果见表2,对于每一个污染指标t 计均小于t 表。

表2 t 检验结果

为了进一步验证算法的有效性和选择点位的精准性,采用土壤污染中常见的风险评价指标,计算优化前点位和优化后点位的内梅罗污染指数并进行比较,具体计算公式如下:

式中,Pi为平均单项污染指数;max(Pi)为最大单项污染指数。

计算得到的内梅罗污染指数见表3。

表3 内梅罗污染指数

3.4 结果分析

F 检验是一种统计假设检验方法,用于检验两个或更多总体的方差是否一致。将F 检验中计算出的F 值与F 分布表中的临界值进行比较,根据表1可看出F 计均小于F 表,说明原始监测点位数据与优化后的28 个点位数据在方差上具有一致性。在验证方差具有一致性的基础上,进一步验证均值是否具有一致性,t 检验可以用于比较两个样本的均值是否显著不同,进行t 检验时,在设置显著性水平为0.05 时,计算出t 值。根据表2 得到,t 计均小于t 表,可认为两个样本均值没有显著性差异。综合以上,可以验证优化前后点位没有明显差异。

为了进一步验证优化后的点位也可以反映整体的污染指数,使用土壤污染常用的内梅罗污染指数进行评价。在土壤污染内梅罗评价标准中,在(0.7,1.0]范围内均属于等级Ⅱ,为尚清洁(警戒线),由表3 可见,使用GCN 优化后的点位污染指数仍处于尚清洁范围内,可以证明在优化前后基于内梅罗评价指标进行土壤评价,可以得到相同的结果。与此同时,对比只利用所获得的点位高维信息表示而不使用结构信息的自编码器优化方法,基于GCN 的监测点位优化方法,更加接近原点位的内梅罗污染指数。综合以上结果分析可得,基于GCN 的聚类方法可以在减少监测点位的同时,不失对土壤环境污染监测的准确性。

4 结语

本文针对土壤监测点位存在冗余问题,以优化监测点位为目的,以图神经网络结合自编码器的GCN 对土壤监测点位进行聚类处理,在优化点位的同时,不降低点位代表率,而大大减少了土壤监测过程中的人力物力。

猜你喜欢
高维原始数据点位
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
机器人快速示教方法及示教点位姿变换的研究
受特定变化趋势限制的传感器数据处理方法研究
机器人点位控制速度规划算法选择策略
一种改进的GP-CLIQUE自适应高维子空间聚类算法
全新Mentor DRS360 平台借助集中式原始数据融合及直接实时传感技术实现5 级自动驾驶
基于加权自学习散列的高维数据最近邻查询算法
垂直面内建立基线的特殊点位高程测量法
一般非齐次非线性扩散方程的等价变换和高维不变子空间
高维Kramers系统离出点的分布问题