基于ARIMA模型的湘江流域DO和 NH4+–N含量贝叶斯预测

2017-11-06 00:32刘潭秋王巧玲
关键词:益阳湘江贝叶斯

刘潭秋,王巧玲



基于ARIMA模型的湘江流域DO和 NH4+–N含量贝叶斯预测

刘潭秋1,王巧玲2

(1.长沙理工大学经济与管理学院,湖南长沙 410114;2.长沙环境保护职业技术学院,湖南长沙 410004)

为实时把控湘江流域水质的变化趋势,采用污染比较严重的湘江流域长沙段和益阳段水质指标溶解氧(DO)和氨氮(NH4+–N)含量的监测数据,用贝叶斯方法推断经典的ARIMA时间序列模型,并用马尔可夫链蒙特卡罗(MCMC)模拟方法对DO和NH4+–N含量进行贝叶斯预测。结果表明,该模型的贝叶斯预测能实现对湘江流域长沙段和益阳段水质指标DO和NH4+–N含量的精确点预测、区间预测和概率预测。

湘江流域;溶解氧(DO);氨氮(NH4+–N)含量;贝叶斯预测;马尔可夫链蒙特卡罗(MCMC)模拟方法

湘江是湖南省重要的饮用水源地,其流域内集中了全省60%的人口,也承载了60%以上的污染,其中以重金属污染最为严重,非点源污染,特别是因现代农业生产(包括种植业和畜禽养殖业)引起的耗氧性有机物污染和氮、磷等植物营养物质浓度增高所导致的“富营养化”现象亦不容乐观[1–3]。地方政府除了限制和规范沿岸的工业、生活污水排放以及农业耕种、养殖业的发展外,还需实时把控流域水质的变化趋势,对流域相关水质指标进行实时、精确的预测,以便采取措施防患于未然,保证沿岸人们的生产、生活用水安全。

溶解氧(DO)是反映水体质量的重要指标之一,能够反映出水体受到耗氧性有机物污染的程度。氨氮(NH4+–N)含量是反映水体富营养化的重要指标之一。传统水质预测模型的数学表达式一般都较复杂,计算成本高且耗时,很难做到实时预测。基于数据或数据驱动类的模型越来越受到重视,其中,时间序列模型因建模步骤简单且预测精度较高而备受关注[4–5]。该类模型通常使用Box and Jenkins提出的经典推断方法[6],其模型参数被设定为常数且预测结果为点预测。水环境是一个充满不确定性的复杂系统,仅仅用模型中所包含的随机残差项来处理这种不确定性是不充分的。水质管理中概率预测比点预测更有意义。目前已有贝叶斯方法应用于水质预测[7–8]的报道,但这些研究很少与时间序列模型相结合,因此,笔者采用贝叶斯方法来推断时间序列模型,并对湘江流域DO和NH4+–N含量进行贝叶斯预测。

1 材料与方法

1.1 研究区概况

湘江为长江中游南岸的重要支流,干流全长856 km,流域面积9.46万km2,沿途汇入大小支流1 300多条。湘江水域集饮用水、灌溉水、渔业用水、工业用水提供和航运、纳污等多种功能于一体,为区域内居民生活及工农业生产提供重要保障。在20世纪70年代,湘江的整体水质仍为Ⅱ类或Ⅲ类,有“绿色湘江”之称。近几十年来,伴随着沿岸经济的迅猛发展,工业废水、城市生活污水和农业面源污水排放急剧增加,湘江水环境污染形势严峻。目前,湘江流域设有长沙新港断面、益阳万家嘴断面、岳阳城陵矶断面、常德坡头断面、常德沙河口断面水质自动监测站。所监测的水质指标中,反映污染情况的主要指标有DO和NH4+–N含量这2个指标。

1.2 样本数据

据国家环保部官网公布,2016年第11周至2017年第11周,长沙新港断面和益阳万家嘴断面DO均有多次高于Ⅲ类水质标准限值(《GB3838—2002》限值为 5.0 mg/L);长沙新港断面NH4+–N含量出现过1次高于Ⅲ类水质标准限值(《GB3838—2002》限值为1.0 mg/L),其余3个断面的这2个指标均未出现高于Ⅲ类水质标准限值的情况。可见,相较于岳阳和常德,长沙和益阳段受到的污染相对严重,所以,本研究中选取污染比较严重的湘江流域长沙断面和益阳断面2016年第11周至2017年第11周DO和NH4+–N含量实测值进行分析。

由图1可见,监测期间长沙断面的DO含量大部分情况下均低于益阳断面的,这表明湘江长沙断面的有机物污染比湘江益阳断面严重。由图2可见,监测期间长沙断面的NH4+–N含量大部分情况下均小于益阳断面的,只有少数几次大于益阳断面的,出现了1次高于1.0 mg/L的情况。可见,湘江长沙断面的氨氮污染程度比湘江益阳断面的轻。基于以上分析,本研究中对湘江流域长沙断面和益阳断面的DO和NH4+–N含量进行预测试验,并以2016年第11周至第40周为取样时间(因为在此期间2个断面均频繁出现了DO超标的水质轻度污染情况)。样本指标DO和NH4+–N含量各取30个监测值。为了检验模型的预测能力,将整个样本(30个监测值)划分为2个部分:前期20个监测值用于模型的训练,后10个监测值用于检验模型的预测能力。在数据被应用于模型训练之前先进行数据的平稳性检测和处理。

图1 监测期间长沙断面和益阳断面的DO实测值

图2监测期间长沙断面和益阳断面的NH4+–N含量实测值

Fig.2Variations of NH4+–N at Changsha section and Yiyang section during the monitoring periods

1.3 预测模型

自回归整合移动平均(Auto–Regressive Integrated Moving–Average,ARIMA)模型是最经典的时间序列模型,能简单、有效地识别数据中的复杂变化模式,被广泛应用于各领域的一元时间序列预测,其一般表达式为

1.4 贝叶斯推断与预测

采用马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)模拟法,各参数逐一从其满条件分布取样。在执行MCMC模拟过程中监控和检验马尔可夫链的收敛,以确保样本是从平稳分布抽取的。设经历燃烧阶段后抽样迭代的次数为,继续抽样迭代至结束所完成的迭代总次数为。为了确保模型参数贝叶斯估计的准确性,必须抛弃燃烧阶段迭代获得的预测模拟值,且–必须是一个足够大的正整数值,因为理论上只有当迭代次数充分大时,这个马尔可夫链的收敛才可能发生[10]。完成迭代抽样后,模型参数均值估计的计算公式如下:

2 结果与分析

2.1 预测模型的确定

采用Box and Jenkins经典推断法,使用样本数据可以确定2个断面的DO模型结构均为ARIMA(1,0,1)模型,或简写为ARMA(1,1)模型

而2个断面的NH4+–N含量模型结构均为不含常数项的ARMA(1,1)模型

用MCMC方法,分别对长沙断面和益阳断面的DO和NH4+–N含量ARMA (1,1)模型进行参数估计,其中,燃烧期长度设定为1 000次,抽样迭代次数设定为6 000次。待自相关图和追踪图显示所有参数的马尔可夫链都已很好地收敛,表明模型已被训练好,可用来进行实际预测(鉴于论文版面限制,模型参数的贝叶斯估计结果不在这里给出,但备索)。

2.2 贝叶斯预测结果

根据等式(11)和(12)所确定的ARIMA模型结构及模型参数的贝叶斯估计结果,按照1.4节的贝叶斯推断步骤,采用MCMC方法模拟5 000次,对2016年第31周至第40周长沙新港断面和益阳万家嘴断面DO和NH4+–N含量进行贝叶斯预测,获得各监测点在各预测期的5 000个水质指标预测值,构成相应预测模拟序列。

2.2.1点预测结果

1) 由表1、表2可见,各点预测结果与实测值之间的差异均较小。长沙断面DO实测值与预测值均值的最大差值为0.10 mg/L,发生在2016年第34周,最小差值为0.00 mg/L,发生在2016年第38周;益阳断面最大差值为0.22 mg/L,发生在2016年第34周,最小差值为0.02 mg/L,发生在2016年第31、32周。长沙断面NH4+–N含量实测值与预测值均值之间的最大差值为0.01 mg/L,发生在2016年第33、35、36、37周,最小为0.00 mg/L,发生在2016年第32、34周;益阳断面最大值为0.01 mg/L,发生在2016年第33、37周,最小值为0.00 mg/L,发生在其余预测时期。

表1 DO的贝叶斯预测结果

表1(续)

实测值带“*”号表示该值小于国家标准《GB3838–2002》规定的III类水质标准限值,是IV类水质,属轻度污染。

表2 NH4+–N含量的贝叶斯预测结果

2) 长沙断面和益阳断面DO的误差百分比绝对值均值(MAPE)分别为1.07%、1.93%, NH4+–N含量的误差百分比绝对值均值(MAPE)分别为4.12%、0.39%,可见,2 个指标的MAPE值都相当小,其中的最大值也只有4.12%,表明点预测结果精确。

3) 根据DO预测值均值,长沙断面有8次、益阳断面有2次高于III类水质标准限值,表现为轻度污染(IV级水质)。该结果与实测值相符,表明可根据点预测结果对实际污染的发生进行预测。

2.2.2区间预测结果

由表1和表2中预测模拟序列第2.5百分位数和第97.5百分位数可知,预测期间2个断面的DO和NH4+–N含量均处于这2个百分位数之间,或者说模型在预测2个断面的DO和NH4+–N含量的95%可信区间内都包含了真实值,并且MC误差相当小,该值最大也只有0.01 mg/L,表明模型的区间预测结果精确。

2.2.3概率预测结果

与预测概率69.92%和99.82对应的时段,长沙断面和益阳断面均实际发生了DO超标所导致的水污染事件;NH4+–N含量IV类水质发生的预测概率除益阳断面2016年第37周为1%以外,其余时间均接近于0,也就是说,据概率预测结果,2个断面因NH4+–N含量超标而导致水污染的事件几乎不会发生。可见,概率预测结果与实际情况完全相符。

3 结论与讨论

水质建模研究中,各种不确定性所带来的影响日益受到重视。本研究中将贝叶斯方法应用于ARIMA模型推断,将模型中所有参数与变量都看成是随机变量,很好地顺应了这一研究形势。本研究中对水质指标DO和NH4+–N含量进行点预测、区间预测的结果和概率预测的结果均与实际测量数据相符,表明该方法可供水质管理部门对污染事件进行预报预警,并为应急处置方案的制定提供参考依据。

[1] 邓琳,李宏卓,廖达伟,等.南淝河沉积物有机物污染及其生态风险评价[J].环境科学与技术,2011,34(8):179–184.DOI:10.3969/j.issn.1003–6504.2011.08.040.

[2] 杨鑫芳,李欣欣,李晋超,等.农业土地利用中磷流失研究进展[J].山西农业大学学报(自然科学版),2013,33(3):255–261.DOI:10.3969/j.issn.1671–8151.2013.03. 015.

[3] 赵英,崔福义,郭亮,等.基于BP神经网络的天津于桥水库COD Mn预测研究[J].南京理工大学学报(自然科学版),2008,32(3):376–380.DOI:10.3969/j.issn. 1005–9830.2008.03.026.

[4] WEST D,DELLANA S.An empirical analysis of neural network memory structures for basin water quality forecasting[J].International Journal of Forecasting,2011,27(3):777–803.DOI:10.1016/j.ijforecast.2010.09. 003.

[5] EMAMGHOLIZADEH S,KASHI H,MAROFPOOR I,et al.Prediction of water quality parameters of Karoon River (Iran) by artificial intelligence–based models[J]. International Journal of Environmental Science and Technology,2013,11(3):645–656.DOI:10.1007/ s13762–013–0378–x.

[6] BOX G E P,JENKINS G M.Time Series Analysis:Forecasting and Control[M].San Francisco:Holden–Day Press,1976.

[7] YANG J,REICHERT P,ABBASPOUR K C,et al. Hydrological modelling of the Chaohe Basin in China: Statistical model formulation and Bayesian inference[J]. Journal of Hydrology,2007,340(3): 167–182.DOI:10. 1016/j.jhydrol.2007.04.006.

[8] WELLEN Christopher,ARHONDITSIS George B,LONG Tanya,et al.Quantifying the uncertainty of nonpoint source attribution in distributed water quality models:a Bayesian assessment of SWAT’s sediment export predictions[J].Journal of Hydrology,2014,519:3353–3368.DOI:10.1016/j.jhydrol.2014.10.007.

[9] BATEN W D.Book review:theory of probability by Harold Jeffreys[J].Natl Math Mag,1940(3):159.

[10] BARNETT G,KOHN R,SHEATHER S.Robust bayesian estimation of autoregressive–moving–average models[J].Journal of Time Series Analysis,1997,18(1): 11–28.DOI:10.1111/1467–9892.00036.

责任编辑:王赛群

英文编辑:王库

Prediction the contents of DO and NH4+–N in Xiangjiang river basin using Bayesian approach based on the ARIMA model

LIU Tanqiu1, WANG Qiaoling2

(1.School of Economics and Management, Changsha University of Science & Technology, Changsha 410114, China; 2.Changsha Environmental Protection College, Changsha 410004, China)

To master the variation of water quality in case of water security event and to take measures in advance against that in Xiangjiang river basin, the monitoring data of DO and NH4+–N in Changsha section and Yiyang section, which are two serious pollution river sections in the basin, were adopted for predicting their contents through ARIMA model which infers a classical time series model using Bayesian approach, the model parameters and prediction results were simulated by employing Markov Chain Monte Carlo (MCMC) method. The results showed that Bayesian approach in the model could accurately predict contents of DO and NH4+–N at section level, interval level, and probability level in the two selected sections.

Xiangjiang river basin; DO; NH4+–N; Bayesian prediction; Markov Chain Monte Carlo (MCMC) method

S273.2;X52

A

1007-1032(2017)05-0575-06

2017–06–01

2017–09–12

全国统计科学研究计划项目(2013LY027)

刘潭秋(1971—),女,四川成都人,博士,主要从事时间序列计量经济学模型理论与应用研究,ltq870530569@yahoo.com

投稿网址:http://xb.hunau.edu.cn

猜你喜欢
益阳湘江贝叶斯
湘江渡
基于贝叶斯解释回应被告人讲述的故事
悠然湘江上
红三十四师浴血奋战湘江之侧
疏肝益阳胶囊治疗精液液化异常的临床观察
颜新元·中国画《益阳地花鼓·拖板凳》
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
洞庭湖滨兔子山遗址考古 古井中发现的益阳
IIRCT下负二项分布参数多变点的贝叶斯估计