基于PSO优选参数的SVR水质参数遥感反演模型

2011-01-17 05:15王小军
中国测试 2011年1期
关键词:适应度水域反演

王小军

(河西学院机电工程系,甘肃 张掖 734000)

基于PSO优选参数的SVR水质参数遥感反演模型

王小军

(河西学院机电工程系,甘肃 张掖 734000)

为进一步提高多光谱图像水质反演的精度,提出了一种基于PSO优选参数的SVR水质参数遥感反演模型。该模型利用高分辨率多光谱遥感SPOT-5数据和水质实地监测数据,采用CV估计模型推广误差,并使用PSO优选SVR模型参数,实现了模型参数的自动全局优选,在训练好的SVR模型基础之上对水质进行反演。以渭河陕西段为例进行实证研究,实验结果表明,所提出的水质反演模型较常规的线性回归模型有更高的反演精度,为内陆河流环境遥感监测提供了一种新方法。

高分辨遥感影像;粒子群优化算法;支持向量回归;参数优选;水质反演

1 引 言

当今世界,水资源不足和污染构成的水资源危机已成为一个国家经济和社会发展的主要制约因素。近年来我国的水资源状况特别是水污染情况已越来越严重,水质检测是保证水安全的重要措施。常规的水质监测方法是人工取样进行实时实地监测,这种方法只能了解监测断面上的表面水质状况,但对于整个水体而言,这些测点数据只具有局部和典型的代表意义[1]。目前国内主要针对长江[2-3]、珠江[4]、湘江[5]、汉江[6]、太湖[7-8]、千岛湖[9]等较大面积水域进行水环境遥感监测的研究,而针对内陆河流采用SPOT数据进行定量遥感反演的研究目前还很少。因此,建立适当的模型进行连续、大范围的水质监测,对于内陆河流的遥感水质定量监测有着重要的现实意义。

遥感反演水质是一个非线性的过程,影响因素较多,利用线性回归来估计反演结果不精确。该文采用CV估计模型推广误差,并使用粒子群优化算法(PSO)优选支持向量机(SVR)模型参数,将基于参数优选的SVR回归模型用于渭河陕西段水域部分水质变量的遥感水质反演。构建基于SVR的各水质变量多元反演模型,并将结果与传统统计多元回归得到的结果比较分析,最后将构建好的SVR模型用于咸阳至耿镇段整体水域反演,通过该段水域实测数据与陕西环境质量公报数据分析评价模型优劣。

2 水质参数相关性分析

目前已有的相关性分析有多种方法,如积差相关、等级相关等。该文所采用的相关性分析方法为积差相关,是英国统计学家皮尔逊于20世纪提出的一种计算两变量之间线性相关的方法,因而又称为皮尔逊相关,也是目前较为常用的一种相关性分析方法。对13个水质监测点的4种水质变量实测数据与10幅SPOT-5遥感影像上对应时间和地点的遥感数据进行相关性分析。

通过表1结果分析,可见光波段的Band2、Band3以及近红外波段Band1与水质参数间的相关性较好,短波红外波段Band4与整体水质参数的相关性较差。就水质参数而言,CODmn和COD与Band1、Band2、Band3的相关性比较好,具有明显的光学特征,而DO与Band4,NH3-N与Band1、Band2也存在一定的相关性。

表1 采用大气校正遥感数据与水质变量的相关性

3 基于PSO优选参数的SVR水质参数遥感反演

SVR核函数的定义为:设x是Rn的一个子集,称定义在 x·x 上的函数 K(x,x′)是核函数,如果存在着从x到某个Hilbert空间H的映射Φ,使K(x,x′)=Φ(x)gΦ(x′),其中 g表示 H 中的内积。核函数的选择是SVR模型选择的重要内容。目前常用的核函数主要有多项式核函数、径向基核函数、多层感知器核函数3类。在SVR回归过程中,择径向基函数作为核函数,所以需要确定的参数除了惩罚系数C、核参数σ2之外,还有不敏感损失函数的宽度ε。

3.1 SVR的参数优选

对于SVR的参数优选可以把它看作两个步骤,第一是选择一种评价方法评价SVR的精度优劣,第二是选择一种参数选择方法并根据第一部的评价结果对参数进行优选。

第一步针对SVR的结果评价方法有很多,目前常采用的方法有计算预测结果的平均绝对偏差(MAD)和计算预测结果的均方误差(MSE),其计算公式如式(1)和式(2):

考虑到误差结果的无偏性及SVR模型的推广性,在样本数目较少时,常采用CV方法来估算推广误差,以此判断SVR反演精度的优劣。

第二步需要调整(C,σ2,ε)3 个参数,目前对于SVR参数的优选可以采用的有效方法很少,一些研究人员根据具体的试验数据,提出可以通过梯度下降法、牛顿法等方法对参数进行选择[10]。随着人工智能的发展,针对此类优选问题提出了新的方法,如粒子群算法等,此类算法能够在复杂的搜索空间中快速寻求全局最优解,目前已在优化、机器学习和并行处理等领域得到越来越广泛的应用。因此该文在SVR的参数优选上使用了PSO进行优选。

3.2 粒子群优化算法(PSO)

PSO是由Kenney等[11]于1995年提出的一种全局优化进化算法,其基本思想源于对鸟类捕食行为的模拟。PSO求解优化问题时,将每个问题的解看做搜索空间中的一只鸟,称之为粒子。所有的粒子都有一个由待优化函数决定的适应度值,每个粒子还有一个速度决定其飞翔的方向和距离,然后粒子们就追随当前的最优粒子在解空间中搜索。PSO初始化一群随机粒子(随机解),然后通过迭代寻找最优解。在每一次迭代中,粒子通过跟踪两个极值来更新自己:第一个极值是粒子本身所找到的最优解,这个解称为个体极值Pbest;另一个极值是整个种群目前找到的最优解,这个极值是全局极值Gbest。

3.2.1 PSO的数学描述

PSO的数学描述为:设在一个D维搜索空间中,有m个粒子组成一个群体。其中第i个粒子的位置表示为向量 Xi=(xi1,xi2,…,xiD),i=1,2,…,m。将 xi带入目标函数可算出其适应度值,根据适应度值的大小就可以评价出该粒子的优劣。第i个粒子的飞行速度表示为向量 Vi=(νi1,νi2,…,νiD),其搜索到的最优位置为 pi=(pi1,pi2,…,piD),整个粒子群搜索到的最优位置为 pg=(pg1,pg2,…,pgD)。找到这两个最优值时,每个粒子根据式(3)和式(4)来更新自己的速度和新位置:

W——惯性权重函数,用来控制前面速度对当前速度的影响;

c1和c2——加速因子,都是非负常数;

r1和r2——[0,1]的随机数。

3.2.2 各参数搜索区间

惩罚系数C用于控制模型复杂度和逼近精度的折中,C过大,对训练样本数据的拟合程度越高,但泛化能力将降低;C过小,模型达不到很好的逼近精度。因此采取如下方法确定C的搜索区间(0,C1),取C1=max(ai)。Keerthi等[12]的研究表明,对于某一确定的足够大的C,当σ2→0时会发生严重的“过学习”现象,此时径向基函数SVR能对训练样本较好地拟合,但对测试样本的泛化能力变得极差;当σ2→∞时会发生严重的“欠学习”现象。实验取σ2的搜索区间为:[min(‖xi-xj‖2×10-2),max(‖xi-xj‖2×102)]。在ε不敏感损失函数中,ε的大小表示置信区间的宽度,它反映了函数拟合的精度,起到了调和模型复杂度和逼近精度的作用。由于ε一般为一个非常小的正值,因此该文将ε的搜索区间设定为[0.000 1,0.15]。

3.2.3 PSO适应度函数

适应度函数的好坏是衡量进化算法优劣的关键之一。在PSO-SVM算法中,每一个粒子代表SVM的一组参数,粒子所对应的适应度是该组参数下算法的性能。选取计算预测结果的均方误差(MSE)作为适应度函数,其形式如式(5):

SVR回归模型在测试样本集上的MSE值越小,则对应适应度值越大。

3.3 PSO优化SVR参数

PSO-SVM算法如下:

(1)初始化粒子群(C,σ2,ε),设置粒子数、循环次数、W、C1和C2等。随机生成各粒子的初始速度,将每个粒子的Pbest设置为当前位置,将Gbest设置为群体中最好粒子的当前位置。

(2)用训练集训练SVR,用式(5)的适应度函数计算每一个粒子的适应度值 F(C,σ2,ε),根据粒子的适应度值更新Pi和Pg。若某粒子当前适应度优于Pbest,则Pbest被当前位置替换;若所有粒子的当前最优适应值优于Gbest,则Gbest被当前最优位置替换。

(3)按式(3)和式(4)对粒子的速度和位置进行优化。

(4)如未达到算法结束条件,则返回(1);否则输出最优解,算法结束。

算法的终止条件是达到最大迭代次数Gmax或最优解在一定迭代次数内停滞不再变化。

4 实验与分析

该文采用的样本数据共有13组,按照k-折交叉验证的思想选择k=4,即将13组数据分成4组,考虑到数据的大小不一致性,为了使每一组测试样本和训练样本的数据分布较为均匀,在k-折交叉验证的4个分组上保证样本独立性的基础上(即保证4个分组中的数据相互独立),尽量使每一组训练样本中的数据都能够包含较大、中等及较小的数据,而测试样本也符合这种分布。每次选择其中的1组作为测试样本,选择剩下的3组作为训练样本。

以水质实测数据和预处理后的遥感数据为样本数据,使用径向基函数为核函数的SVR进行4类水质变量的反演,并使用PSO优选SVR模型参数,构建水质变量多元反演模型。构建的各水质变量多元反演模型精度结果如表2所示。

表2 各水质变量反演结果

由于对同一种水质变量来说,当选择的样本划分不同(即训练样本不同)时反演模型的精度是不同的,同时使用PSO对回归模型优选得到的模型参数也是不同的;而针对不同的水质变量,回归模型优选得到的参数也不相同。表2采用MAD和可决相关系数R2来评价反演结果,给出了4种水质参数所对应的SVR的(C,σ2,ε)。从整体上来说在各水质变量预测结果的评价上均能达到较好的反演精度。

根据以上的方法和实验结果分析,将基于反演模型应用于渭河陕西段水域的河流水质监测。通过对渭河陕西段水域咸阳至耿镇段水域PSO优选参数的SVR构建的各水质变量多元进行水质变量反演,得到该段水域的水质变量情况,进而可以根据国标等级分析该流域水质等级情况等信息。图1将以CODmn为例使用PSO优选参数后的SVR模型对咸阳至耿镇段水域进行整体反演,并将反演后的结果根据CODmn浓度情况进行不同颜色的划分。

从图1可以看出,耿镇区域的水域颜色主要为红色,表明该水域CODmn浓度在3.5~4mg/L之间,浓度大小接近耿镇监测点实测数据;而咸阳区域颜色主要为绿色,表明该水域CODmn浓度在4~6mg/L之间,浓度大小接近咸阳监测点实测数据。此外,从图1中还可以看出,在咸阳与耿镇之间,特别是渭河咸阳段存在部分水域颜色为蓝色,表明该水域的CODmn浓度在6~10mg/L之间,这与该地区工厂较多且工业废水排放较多有关。

图1 SVR模型对CODmn反演结果

5 结束语

水质反演是一个不确定性问题,反演的结果在多大程度上是可靠的一直是水质反演的研究难点。该文使用基于PSO优选的SVR水质参数遥感反演模型方法能够在较高的精度上对渭河陕西段流域水质变量进行反演,较常用的统计回归方法具有明显的优势。该方法为渭河陕西段水环境监测提供了一种新的方法,同时也为内陆河流水环境监测提供了借鉴。实验中的样本数量还偏少,为了使反演的推广性进一步提高,反演中应尽量增加采样点的个数,以区分不同的季节,做更多的时空分析及验证。同时该文仅对4种水质参数进行反演研究,应该进一步研究其他水质参数的反演。

[1]徐涵秋.环厦门海域水色变化的多光谱多时相遥感分析[J].环境科学学报,2006,26(7):1209-1217.

[2]陆家驹.长江南京江段水质遥感分析[J].国土资源遥感,2002,16(3):33-36.

[3]童小华,谢 欢,仇雁翎,等.黄浦江上游水域的多光谱遥感水质监测与反演模型[J].武汉大学学报:信息科学版,2006,31(10):851-854.

[4]马跃良,王云鹏,贾桂梅.珠江广州河段水体污染的遥感监测应用研究[J].重庆环境科学,2003,25(3):13-16.

[5]张 华,曾光明,李忠武,等.内陆水环境污染监测的多时相遥感信息模型[J].中国环境监测,2005,21(5):63-68.

[6]郑明福,张 力,杨 坤.基于遥感技术的汉江中下游河道变迁研究[J].人民长江,2007,38(10):52-53.

[7]佘丰宁,李旭文,蔡启铭,等.水体叶绿素含量的遥感定量模型[J].湖泊科学,1996,8(3):201-207.

[8]王学军,马 廷.应用遥感技术监测和评价太湖水质状况[J].环境科学,2000(21):65-68.

[9]刘 英.千岛湖水体水质参数遥感及其估测模型研究[D].杭州:浙江大学,2003.

[10]刘靖旭.支持向量回归的模型选择及应用研究[D].北京:国防科学技术大学,2006.

[11]Kennedy J,Eberhart R.Particle swarm op timization[C]∥Proc of IEEE International Conference on Neural Networks.Piscat-away:IEEE Press,1995.

[12]Keerthi S S,Lin C J.Asymptotic behaviors of support vectormachineswith gaussian kernel[J].NeuralComputation,2003(15):1667-1689.

Model for water quality remote retrieve based on support vector regression with parameters optimized by particle swarm optim ization algorithm

WANG Xiao-jun
(Department of Mechanic and Electronic,Hexi University,Zhangye 734000,China)

In order to improve the accuracy of the water quality retrievals of multi-spectral image,the author puts forward a model for water quality remote retrieve based on support vector regression with parameters optimized by particle swarm optimization algorithm.The model uses high-resolution multi-spectral remote SPOT-5 data and the water quality field data,uses CV to estimate the promote error and use PSO to optimize parameters of SVR model.It optimizes the model parameters globally,after the water quality is retrieved by the trained SVR.The proposed model is applied to the water quality retrievals of Weihe River in Shaanxi province.The results show that the developed model has more accuracy than the routine linear regression model.The paper provides a new approach for remote sensing monitoring of environment to inland rivers.

high-resolution remote sensing image;particle swarm optimization algorithms;support vector regression;parameter optimized;water quality retrievals

X832;TM930.12

A

1674-5124(2011)01-0066-04

2010-09-05;

2010-10-26

重庆市科技攻关重点项目(CSTC2009AB2231)

王小军(1977-),男,甘肃张掖市人,讲师,主要从事传感器与自动检测技术的研究。

猜你喜欢
适应度水域反演
改进的自适应复制、交叉和突变遗传算法
反演对称变换在解决平面几何问题中的应用
基于ADS-B的风场反演与异常值影响研究
利用锥模型反演CME三维参数
提升水域救援装备应用效能的思考
进博会水域环境保障研究及展望
一类麦比乌斯反演问题及其应用
柳江水域疍民的历史往事
城市水域生态景观设计探讨
一种基于改进适应度的多机器人协作策略