遥感降水降尺度高精度校正及不确定性分析方法

2024-03-18 12:08董甲平冶运涛顾晶晶黄建雄关昊哲
水利学报 2024年2期
关键词:置信区间不确定性残差

董甲平,冶运涛,顾晶晶,黄建雄,关昊哲,曹 引

(1.天津大学 建筑工程学院,天津 300072;2.中国水利水电科学研究院 水资源研究所,北京 100038;3.水利部数字孪生流域重点实验室,北京 100038)

1 研究背景

降水是全球水循环的重要组成部分,也是地表水文过程的基本驱动因子[1]。降水数据是进行流域水文分析、水资源规划管理、洪涝干旱监测等研究的重要基础数据[2]。目前获取降水数据的手段主要包括地面站点观测、雷达观测和卫星遥感反演[3]。由于数据来源和插值算法存在限制,目前通过降水降尺度算法细化遥感降水数据已成为获取高分辨率降水数据的重要途径[4]。近年来,计算量小、灵活多变的统计降尺度方法获得广泛的应用[5]。根据Pathirana等[6]的研究,降水可以分成两个部分:一是表示降水空间分异性的异质部分,主要表征地理位置、地形特征等确定性因素对降水的影响;二是表示降水随机变异性的同质部分,主要表征气旋、气团、台风等随机性因素对降水的影响。降水由以上两个部分组成,在不同的时间尺度上却表现出不同的特点:小时间尺度(如小时或日尺度)的降水呈现随机性,虽然它是随机性和确定性成分的混合体,但是确定性的异质部分被更强烈的随机性所掩盖。当降水经长时间积累后,受平均效应影响,随机性会同质化为均匀场,确定性的异质部分逐渐占据主导地位,随着累积长度的增加,异质性会变得更加明显。研究发现,基于地表环境变量构建的降水降尺度模型能够准确模拟降水场的异质部分,却难以有效反演降水场的同质部分,因此需要残差校正补充降水场同质部分对降水的贡献,上述降水场组合理论在降水降尺度校正研究中应用广泛[7]。

过去几十年中,众多的插值方法被应用于降尺度残差校正研究,但现有方法或基于地理统计学理论[8],或基于邻域相关性假设[9],或基于弹性力学机制[10],并未考虑曲面的内蕴因素对曲面重建的约束作用,无法有效消除残差校正过程中的误差问题和多尺度问题[11]。而降水降尺度校正十分依赖尺度转化,需要一种新的插值方法消除上述问题。高精度曲面建模方法(High Accuracy Surface Modeling,HASM)是近几年发展起来的一种空间插值方法,它基于曲面论和最优控制论,以全局性近似数据为驱动场,局部高精度数据为优化控制条件,能有效解决插值过程中的误差问题和多尺度问题[12]。HASM已在数字高程模型(Digital Elevation Model,DEM)构建[13]、土壤属性要素模拟[14]以及气候要素时空变化分析[15]等多个领域得到应用。岳天祥等[16]的大量研究表明HASM比经典插值方法的模拟精度更高,具有卓越优势。目前,已经有学者开始将HASM应用于降水降尺度研究[17],但现有的研究主要通过数据融合提高降尺度结果的精度,并未从消除降水同质部分影响的角度进行尝试。而且,在实际应用HASM时,必须根据模拟需求设定参数,而这些参数的不确定性会影响模拟结果的精确度和稳定性。模型参数优化对提升高精度曲面建模模型鲁棒性和结果精度具有重要意义。但目前对HASM参数不确定性分析和参数优化的研究还十分匮乏。对HASM的研究,能够为提升降水降尺度精度和改善数字孪生数据[18-19]提供一条可行思路。

针对上述问题,本研究结合贝叶斯优化和高精度曲面建模算法,提出了一种基于贝叶斯优化高精度曲面建模算法(Bayes-HASM)的遥感降水降尺度校正方法。该方法利用贝叶斯优化算法实现高精度曲面建模型参数的自动优化,并应用于降水降尺度校正,能够有效降低模型的不确定性并提升降水降尺度精度。

2 研究区域概况

滦河流域(115°30′E—118°45′E,39°10′N—42°40′N)位于辽宁省、河北省和内蒙古自治区交界地带,流域面积44 750 km2。地形特征明显,上游为坝上高原,海拔高度1300~1400 m;中部为燕山山地,地形复杂,海拔高度1000~1800 m;东南部主要为平原,海拔在1000 m以下,如图1所示。滦河流域处于半湿润半干旱过渡带,气候复杂多变,年平均气温在1~11 ℃,多年平均降水量400~800 mm。降水的时空分布差异显著[20],具有典型性和代表性。滦河流域是中国北方重要的生态屏障区,也是引滦入津工程重要水源所在地[21],对其水资源的管理和保护具有重要的意义。

图1 研究区域

3 研究框架

统计降水降尺度包含降水降尺度环境变量识别、降水降尺度模型构建和降水降尺度校正三个关键环节,其中降尺度环境变量识别用于定量评估环境变量对降水空间分布的影响,实现统计降尺度环境变量的科学选取;降尺度模型构建用于构建环境变量与降水之间的统计关系,实现遥感降水数据的降尺度;降尺度校正用于消除降尺度模型结果与真实降水之间的各类偏差,实现高分辨降水数据的精确表达。这三个环节结合紧密,构成了完整的技术体系,对提高降水降尺度精度均起到了至关重要的作用。

本研究是在统计降水降尺度环境变量识别[22]和卷积神经网络降水降尺度模型构建[23]成果的基础上开展的后继研究。在先前的研究中,采用地理探测器定量分析方法,通过因子探测、交互探测、生态探测和共线性分析这四个方面详细研究了环境变量及其交互作用对降水空间分布的影响。随后构建并探讨了基于像元的卷积神经网络降水降尺度模型,考察其在年、季、月和旬的性能表现以及模型参数的变化情况。本研究填补了统计降水降尺度系列研究的最后一块拼图,建立了从降水降尺度环境变量识别到高分辨率和高精度的降水产品生成的完整流程。

本文以消除降水场同质部分影响作为研究切入点,综合应用贝叶斯优化和高精度曲面建模算法,实现HASM参数的自寻优和降水降尺度的高精度残差校正。研究框架如图2所示,降水降尺度校正的主要步骤包括:(1)验证点要素获取。随机选择70%点要素用于模型参数选取和高精度残差模拟,剩余的30%的点要素用于不确定性分析和降尺度校正精度评价。(2)样点数据和迭代初值获取。使用所选70%的点要素提取训练样本点残差值,并使用双线性插值方法获取残差迭代初值。(3)贝叶斯优化模型参数筛选。首先随机设定一组模型参数,代入HASM计算模型误差,以此为先验通过贝叶斯优化计算下一组有“潜力”的参数配置。逐次迭代直至达到最大迭代次数,选取误差最小的参数配置为最优参数配置。(4)模型参数不确定性分析。对Bayes-HASM和原始HASM(随机参数)进行不确定性分析,并探讨贝叶斯优化是否对HASM产生积极意义。(5)降尺度校正结果计算及精度评价。使用降尺度模型结果减去残差模拟曲面,得到降尺度校正结果,并利用验证点数据(30%)提取的CGDPA数据进行精度评价。

图2 研究框架

4 研究方法

4.1 Bayes-HASM算法构建的Bayes-HASM包含贝叶斯优化[24]和高精度曲面建模[12]两个部分。高精度曲面建模用于计算残差曲面,贝叶斯优化算法用于获取高精度曲面建模的最优结构参数,通过将上述两种算法集成,实现参数自优化的降水降尺度高精度校正算法。算法细节如下。

首先随机生成一组模型参数X1={x1,x2,x3,…,x8}(需要考虑的参数有8个)。使用随机参数X1计算降尺度结果,并与基准数据计算均方根误差f1,将以上数据作为先验知识得到后验分布如式(1)所示:

p(f*|X,F,x*)=N(m,Σ)

(1)

式中:X={X1,X2,X3,…,Xn}为观测数据集的模型参数组合向量;F={f1,f2,f3,…,fn}为观测数据集降水均方根误差;n为迭代次数;x*为一组预测模型参数组合;f*为代理模型的输出结果;m为后验分布的均值函数,Σ为后验分布的协方差矩阵。

使用由均值函数m和协方差矩阵Σ构造的采集函数(式(2))会选择具有最大可能性提高当前最大值的点作为下一个查询点。

(2)

式中:Φ(·)为正态分布累积分布函数;mt为第t次迭代高斯过程概率密度函数的均值;Σt为第t次迭代高斯过程概率密度函数的方差;f(x+)为前t次迭代的已知最大值;argmax获取使Φ(·)获得最大值的参数;ε为极小正数用来权衡探索和开发;Xt+1为确定的下一次模型参数组合。

4.2 精度评价指标从两个角度对降尺度校正算法的表现进行评估,其一是采用蒙特卡洛算法[25]对模型的不确定性定量评估,用于衡量贝叶斯优化前后高精度曲面建模的不确定性;其二是采用4个定量评价指标对降尺度校正结果精度评价,用于衡量使用算法校正前后精度的变化,这4个指标包括:相关系数CC(correlation coefficient)、相似指数IA(index of agreement)、均方根误差RMSE(root mean square error)和相对偏差RB(relative bias)。

降尺度校正过程需要实测降水数据用于模型训练和精度验证,然而滦河流域气象站点稀少,仅有5个国家级气象站点,实测站点数据无法满足需求,故本研究选用了国家气象数据中心发布的2018年CGDPA(China Gauge-Based Daily Precipitation Analysis)降水产品作为降水基准数据。此产品以中国大陆国家级的雨量站点为基础生成[26],经过了严格的质量控制,多项研究将其用作降水基准数据[27],精度值得信赖。最终,本研究使用的降水数据点共75个,用于模型训练和验证的数据点分别为52个(约占总数的70%)和23个(约占总数的30%),超过了其他同等面积流域降水降尺度研究样本数量[28],足以支撑研究成果的准确性和可信度。

5 结果分析

5.1 模型不确定性评估提供给蒙特卡洛算法的样本越多,统计结果越精确,但是Bayes-HASM算法本身消耗算力较大,样本的增多会增加计算负担,因此需要合理分配算力和确定样本量以保障计算速度和统计结果准确。以年尺度为例,绘制计算次数与误差置信区间关系图(如图3所示),结果显示,随着实验次数的增加,模型误差距平的置信区间逐渐收敛,在实验次数达到200次时逐步稳定。因此,本文选用200次计算从整体和局部两个层面对模型的不确定性进行定量评估。整体层面使用全部验证点的200次误差距平的95%置信区间评估,局部层面则使用单一验证点的200次误差的分布情况进行不确定性评估(为便于展示,选择6个验证点绘图)。

图3 计算次数与误差距平置信区间关系

图4将年、季尺度原始HASM和Bayes-HASM的置信区间进行了对比。在年、季尺度下,相对于原始HASM,Bayes-HASM能够显著降低模型的不确定性,并将误差距平的置信区间稳定在0值附近,而原始HASM的置信区间则有较大幅度的波动,其中不确定性下降最明显的是春季和冬季,误差距平的置信区间从±0.8 mm优化到±0.1 mm,夏季、秋季和年尺度的不确定性也有不同程度的下降。出现这种现象的主要原因是春冬季降水较少,模型参数的波动更容易影响残差的计算结果。

图4 年、季尺度误差置信区间对比

图5通过选取年尺度的6个验证点分析残差的分布情况。图示中,红色为Bayes-HASM残差分布小提琴图,蓝色为HASM残差分布小提琴图。通过比较残差分布,Bayes-HASM的残差能够稳定在极小的范围内,且该范围小于原始HASM残差范围的1/10,这说明贝叶斯优化有效降低了高精度曲面建模的不确定性。其他尺度的残差分布情况与年尺度一致,不再附图展开详细分析。不同时间尺度的原始HASM和Bayes-HASM的不确定性分析结果表明,Bayes-HASM具有较强的鲁棒性和稳定性。

图5 年尺度验证点残差分布

图6分析了月尺度原始HASM和Bayes-HASM的模型不确定性情况。从整体上看,Bayes-HASM误差距平的置信区间围绕在0值附近,波动幅度小于±0.1 mm,原始HASM置信区间波动幅度较大,波动幅度超过±0.5 mm。不同月份下Bayes-HASM的不确定性较原始HASM均有降低,其中1、2、3、11和12月份降低幅度不大,4—10月份的降低幅度较为明显,7、8月份最为明显。这说明Bayes-HASM在月尺度上能有效降低建模误差和不确定性,特别是降水量较大月份的效果更为显著。

图6 月尺度误差置信区间对比

图7对比了旬尺度下原始HASM和Bayes-HASM的误差距平的置信区间。从整体上看,原始HASM和Bayes-HASM均能将误差限定到较小的范围,但是Bayes-HASM误差距平的置信区间非常接近0值,而原始HASM的误差距平有较大幅度的波动,说明在旬尺度下Bayes-HASM同样能够有效降低不确定性。7月中旬和8月中旬模型不确定性的降低幅度最大,将原始HASM误差±0.6 mm的置信区间稳定到Bayes-HASM误差的±0.1 mm,其他旬也将置信区间稳定在0值附近,这说明贝叶斯优化具有稳定器的作用,能够有效消除HASM参数选取不合适带来的不确定性。

通过对比图4和图6,发现季尺度下误差距平波动幅度较大的是春季和冬季,而月尺度却变为7、8、9月份。出现这种现象的主要原因是不同时间尺度降水累积量不同,主要误差来源也不同。在季尺度下,滦河流域春季和冬季的降水量较少,主要为降雪,由于IMERG(Integrated Multi-satellite Retrievals for GPM)数据对微量降水和降雪的反演能力较差[29],所以在春季和秋季会出现较大的误差。在月尺度下,月累计降水量的大小对降水误差的影响更显著,1、2、11和12月份的降水量小,相较滦河流域主要降水月份(7、8、9月)误差值也会偏小,这种现象可以在图7中得到验证。

5.2 年、季降尺度校正降尺度校正选用的降尺度模型为卷积神经网络降水降尺度模型,该模型已经在文献[23]中进行了详细的介绍。文中将卷积神经网络模型(CNN)与粒子群优化反向传播网络模型(PSO-BP)[30]进行了精度对比。其结果表明,在年、季、月和旬尺度上,CNN的降尺度精度明显优于PSO-BP,即使是在降尺度表现较差的1、2、11月份。文献[23]也详细分析了1、2和11月份降尺度效果不佳的原因:①滦河流域冬季降水稀少,其中2018年1、2月份累计降水量小于3 mm且绝大部分地区无降水,致使卫星降水产品与真实降水存在较大误差。②查询2018年的天气情况,发现滦河流域11月份的5次降水均为降雪,由于卫星传感器对降雪的探测能力不足,使得卫星降水产品在11月份存在较大的偏差,此种偏差也已经在文献[31]中得到了佐证。所以本研究选用卷积神经网络降水降尺度模型进行后续降尺度校正研究合理可行。

图8比较了年降水降尺度残差校正前后的精度评价指标。观察图8可见,校正后的散点更接近1∶1线,相较于校正前有明显改善。校正后的所有指标均显著提升,其中CC由0.66提升至0.97;IA指标由0.78提升至0.98;RMSE下降了67%;但RB与其他指标发生了背离,原因是多组验证点误差相互抵消。这表明Bayes-HASM能大幅提高年降水降尺度的精度。

图8 年降水降尺度残差校正前后精度对比

图9比较了季降水降尺度残差校正前后的精度指标。残差校正后,四个季度的散点与1∶1线的偏离程度明显减小。对比校正前后精度指标的变化,春季的CC提升了0.18、IA提升了0.11、RMSE下降了64%、RB改善了4.35%;夏季的CC提升了0.27、IA提升了0.18、RMSE下降了68%、RB改善了4.17%;秋季的CC提升了0.10、IA提升了0.13、RMSE下降了53%、RB改善了8.64%;冬季的CC提升了0.15、IA提升了0.10、RMSE下降了60%、RB改善了16.86%。结果表明,Bayes-HASM能明显提升季降水降尺度的精度。在图9(g)中,接近0 mm的降水量散点呈现水平分布,与其他季节不同,这是因为滦河流域冬季降水量很少,甚至有很多区域的降水量接近0 mm。在这种情况下,模型的训练样本成为稀疏数据[32],使用稀疏数据训练降水降尺度模型通常效果不理想,这在冬季降水降尺度研究[33]中经常出现。

图9 季降尺度残差校正前后精度对比

5.3 月降尺度残差校正月降水降尺度残差校正前后的精度评价指标如表1所示。校正后,所有月份的精度指标均有较大幅度的改善,CC均超过0.89,其中,1、2、3、6、8、10和11月份CC提升显著,幅度超过0.3;IA指标也都超过0.94,其中,1、2、6、8、10和11月份IA指标提升超过0.3;4、5、6、7、8和11月份的RMSE下降较为显著,RB也有明显改善,虽然4和9月份略微有所降低,但是变化不大。综上,Bayes-HASM能有效提高月降水降尺度精度。

表1 月尺度降水残差校正前后精度对比

通过对比12个月份降尺度残差校正的精度变化,发现1、2、11月份的精度提升最为显著,主要因为这些月份滦河流域降水极少,且大多为降雪,大量区域的降水量接近0,有效降雨样本偏少,降尺度模型容易过拟合。同时,由于目前降水传感器和降水反演算法存在局限性,对于较短时间尺度[28]、微量降水和降雪[29]的反演精度较差。在这些情况下,IMERG与CGDPA数据会存在较大偏差,导致校正前的精度相对较低。然而,Bayes-HASM算法在残差曲面构建方面表现出色,因此在1、2和11月等降尺度校正中,其提升效果最为显著。相比而言,6、7、8月份精度提升显著的原因则有所不同,这三个月份为滦河流域的主要降水月份,贡献了全年降水量的70%以上,植被茂盛且极端降雨较多,受降水产品对极端降水模拟较差和植被指数与降水存在迟滞性的影响,降尺度模型结果略差,但降尺度校正后的精度也得到明显的提升。其余月份的降水量适中,环境变量与降水的关联性强,降尺度模型本身精度较高,经校正之后精度得到进一步提升。

图10显示了残差校正效果显著月份的降水量频率分布直方图。比较1、2和11月份的CGDPA、残差校正前后的降水频率分布直方图,发现这三个月份的绝大部分像元的月累积降水量都低于1 mm,有效降水样本稀缺,导致模型的拟合效果不理想。查看8月份的频率分布直方图,发现该月份降水量较大,受到暴雨等极端降水的影响,降水场中同质部分占比较高,因此在残差校正之前,降水降尺度模型的精度相对较低。然而,以上月份经过Bayes-HASM残差校正后,降水数据直方图更接近CGDPA数据,能更准确地反映滦河流域的真实降水分布。综上,Bayes-HASM不仅能够有效弥补因有效降水样本稀缺导致的模型拟合效果不佳,也能有效消除降水场同质部分的影响。

图10 月降水量频率分布直方图

5.4 旬降尺度残差校正表2对比了旬降水降尺度残差校正前后的精度评价指标,表格中删除了累积降水量小于0.5 mm无效降水[34]的2月中下旬、5月上旬、11月上旬和12月下旬。通过对比发现,残差校正后精度评价指标提升明显,CC平均增加了0.41,IA平均提升了0.34,RMSE平均降低了61%,RB平均改善了256.12%。对比各旬的精度发现,残差校正对精度的改善在不同季节存在差异,夏秋季有一定提升,而春冬季的改善效果更显著,主要因为秋冬季降水较少,同质降水占比较高,不易被降尺度模型准确模拟,而残差校正能够弥补此不足,校正效果会更好。

表2 旬尺度降水残差校正前后精度对比 单位:亿m3

在旬尺度下,Bayes-HASM同样表现出色,提升较大的月份包括1月上中下旬、二月中旬、4月中旬、8月上旬、9月中旬、10月上旬、11月中旬和12月中旬,因为1、2、11、12月份滦河流域降水较少,有效降水样本不足,导致降尺度模型精度不高。然而,Bayes-HASM能够有效弥补降尺度模型的偏差,进而大幅提升精度。另外4月中旬、8月上旬、9月中旬和10月下旬的评价指标也有较大幅度提升,从图11可以发现,这些旬的IMERG和CGDPA数据存在较大偏差,导致由环境因子和IMERG数据计算得到的降尺度模型结果与真实降雨存在较大偏差。而残差校正后的结果与CGDPA数据具有极高的相似性,证明Bayes-HASM能有效降低因数据偏差造成的降水降尺度误差。

图11 旬降水量频率分布直方图

5.5 讨论残差校正的结果显示,与年尺度和季尺度相比,月和旬尺度的改善幅度更为显著。这主要有两个原因:①根据降水场的组合理论[6],随降水累积长度的增加,随机效应活跃性逐渐降低,异质性变得更加明显,所以较小时间尺度的月和旬降水场同质部分占比更多,残差校正的改善幅度更大。②由于目前降水传感器和降尺度模型存在局限性,对于较短时间尺度[28]、微量降水和降雪[29]的反演精度较差,然而Bayes-HASM能够十分有效的校正降尺度模型结果和真实降水之间的残差,因此相较于年、季而言,对月和旬尺度的改善幅度更显著。

在模型结果分析中,评估了年、季、月、旬四个尺度,但未选择日尺度,是因为在日尺度上,卫星降水的空间降尺度存在诸多的问题,主要有以下几个原因:①滦河流域春、冬两季少雨,夏季多暴雨,日降水数据存在着大量的异常样本。存在大量的异常样本的日尺度降水降尺度还有待进一步的研究。②研究表明,不同时间尺度的卫星反演降水产品的精度差异显著,小时间尺度的精度远低于长时间尺度[2,35],因此卫星降水产品的精度制约了日尺度降尺度校正研究的可行性。③常用地表环境变量(如NDVI)与降水之间存在迟滞性,致使环境变量与日尺度之间缺乏显著的相关性[36],因此,直接在日尺度进行降水空间降尺度是不可行的。

6 结论

本文采用Bayes-HASM算法对年、季、月和旬尺度的降水降尺度模型结果进行了校正,并从模型的不确定性、散点分布特征和精度评价指标等方面进行了深入分析和讨论,得出以下结论:

(1)贝叶斯优化成功降低了高精度曲面建模的不确定性,起到增强模型的鲁棒性和稳定性的作用,为模型应用于降尺度和其他领域提供了基础。

(2)Bayes-HASM残差校正显著减小了降尺度结果散点与1∶1线的偏差,也显著提升了年、季、月和旬尺度的精度指标。证明残差校正结果能够更准确地反映真实的降水情况。

(3)不同季节,降尺度残差校正的精度提升存在差异。因不同季节降水累积量不同,使得降水同质部分占比也存在差异,因此相较于夏秋季,春冬季残差校正的提升幅度更显著。

(4)不同时间尺度降尺度残差校正的精度提升也存在差异。尽管所有时间尺度的降尺度结果经过残差校正后的精度评价指标都有不同程度的改善,但是月和旬尺度上改善幅度更为显著,尤其是降水较少、降雪影响显著的月份的改善幅度更大。

猜你喜欢
置信区间不确定性残差
法律的两种不确定性
基于双向GRU与残差拟合的车辆跟驰建模
定数截尾场合三参数pareto分布参数的最优置信区间
p-范分布中参数的置信区间
多个偏正态总体共同位置参数的Bootstrap置信区间
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
英镑或继续面临不确定性风险
列车定位中置信区间的确定方法
具有不可测动态不确定性非线性系统的控制