基于特征融合并行优化模型的环境γ 辐射剂量率数据分析与预测

2024-05-07 05:22刘君武吴允平林明贵
辐射防护 2024年2期
关键词:时间序列

刘君武 吴允平 林明贵

摘 要:核电辐射环境监测网( ERMS) 能提供实时、连续的监测数据,是核电最重要的外围监督性设施,为辐射环境评估提供数据依据。为掌握影响辐射数据质量的特征要素与及时发现环境的辐射异常,开展高压电离室探测器( HPIC) 剂量率数据的特征挖掘与预测研究,提出一种基于奇异谱分析算法( singular spectrum analysis,SSA) 的γ 辐射剂量率数据预处理方法,从其历史数据中学习涨幅趋势和拐点细节变化;针对数据的多维度特点,设计一种特征融合并行优化模型预测框架,以福建宁德核电站外围11 个自动站辐射监测数据、天顶方向总电子含量( VTEC) 数据进行实验验证。实验结果表明,该模型对环境γ 辐射剂量率预测取得了较好的预测性能与精度。

关键词:时间序列;辐射环境;高压电离室探测器;γ 辐射剂量率;奇异谱分析;特征融合网络

中图分类号:TP183 文献标识码:A

核电是重要的低碳电力来源,是我国实现双碳目标的重要途径。核电辐射环境监测网(environment radiation monitoring system,ERMS)在核电周边布设自動监测站,用于实时监测气态流出物和环境γ 辐射空气吸收剂量率等参数[1] ,以掌握核电周围辐射环境情况。目前,我国选择高压电离室探测器(high pressure ionization chamber,HPIC)用于探测γ 辐射空气吸收剂量率[2] 。

辐射环境数据具有丰富的分布特征[3] ,而经典统计学是辐射环境数据分析的理论基础。它在环境影响趋势研判( 评估本底水平、发现异常值等)、发现影响辐射剂量率数据质量的气候气象因子[4-5] 、评估辐射环境影响[6-8] 等,尤其是相关性、趋势演化分析,发挥了巨大作用。物联网技术整体提升了ERMS 的监测水平,以秒计上报实时数据、以分计上报5 类统计数据,形成了时空分辨率高的海量ERMS 辐射数据,有利于开展辐射数据的挖掘及应用研究[9] 。2019 年欧盟宣布开放共享近30 年的辐射环境数据库REMdb[10] ;同年,美国能源部设专项经费资助核数据研究[11] ,力图推动大数据分析方法在本领域应用与发展。

时序数据预测是数据挖掘领域中的一个重要分支[12] ,它能够通过挖掘多维时间序列之间的潜在结构关系, 预测未来的趋势。循环神经网络(recurrent neural network,RNN)是一种具有优异拟合能力的神经网络,特别适用于处理价值密度较低、异常数据较少的时间序列数据集。RNN 可以捕捉历史时间序列中的特征,因此在时序数据预测领域得到了广泛的应用[13-14] ,尤其近几年通过优化RNN 网络或与其他网络融合的方式进行时序数据的实时预测,在交通流[15] 、海表面温度[16] 、船舶航迹[17] 等预测方面取得了较好的精度。另外,奇异谱分析(SSA) 算法通过分解与重构时序数据,可以其中的不同信号,如趋势、周期与噪声等,并分别对它们进行预测[18] 。因此,SSA 算法在短期风速预测[19] 、风电功率预测[20] 等环境数据预测领域取得了意想不到的进展。

2018 年,Janik 等[21] 应用梯度逼近( gradientboosting,GB)、神经网络、线性回归等对遗失数据进行重构,解决了数据不规则和不完整的问题。2019 年,朱武峰等[22] 研究了内隐特征因子,形成20 个维度的特征输入,基于GB 算法建立了γ 辐射剂量率在线预测模型,预测值与实际值之间具有较好的线性度。此外,林武辉等[23] 研究了自然事件对ERMS 高分辨率、长时间连续观测数据的影响特征及其调控机制,为精准解释核设施周边环境监测中γ 辐射空气吸收剂量率异常数据提供了研究依据。

基于大数据视角,本文针对海量ERMS 辐射数据的分布多样性、变化动态性和结构复杂性等,结合太阳活动监测和气象数据,采用深度学习技术, 设计了一种结合完全卷积网络( fullyconvolutional networks,FCN)和RNN 两种不同神经网络结构的特征融合网络模型,充分利用了其在局部特征提取和序列数据建模方面的优势。该研究旨在为辐射环境异常发现和成因分析,以及辐射环境预报提供参考。

1 基于降噪时序的特征融合模型

1. 1 数据集描述

数据资料来源列于表1,分3 部分:(1)2015—2017 年福建宁德核电站外围11 个自动站的历史辐射监测数据;(2) 2015—2017 年天顶方向电子含量( vertical total electron content,VTEC) 数据;(3)同期气象数据。

1. 2 数据集预处理

1. 2. 1 SSA 处理

使用SSA 算法对数据集中的γ 辐射剂量率进行分析处理,以其中一个监测点S 进行分析说明。

通常,在奇异谱分析中,窗口长度L 一般不能大于N / 2,如果原始序列中存在整数周期的周期性分量,L 取与该周期成正比的数(虽然L 的选择很重要,但是其微小变化对结果的影响微乎其微)。本文的数据采样周期为一天,采样间隔为4 min,共有360 个采样值。经过实验,将所有实验的L 都设为36,所得36 个奇异值从大到小顺序排列称为奇异谱。奇异值按从大到小顺序排列的曲线如图1 所示。

图1 中,第1 个最大奇异值对应着趋势成分,第2~11 个奇异值对应着振荡成分,例如(2,3)、(4,5) 和(6,7) 等,因其成对存在,奇异值大小相近,说明它们对应着序列中的振荡成分,第12 个奇异值开始,下降速度变慢,因此12~36 个奇异值对应着序列中的噪声部分。

表2 列出了前10 个特征值对应的贡献率和重构序列,这些特征值的贡献率之和占原始序列的99. 73%。图2 为前10 个奇异值对应的重构序列。

图3 展示了S 点的γ 辐射剂量率序列,包括原始序列和通过SSA 算法处理后的重构序列。

综合图2 和图3,可以得出如下结论:使用SSA 算法可以对γ 辐射剂量率序列进行有效分解,得到趋势、振荡和噪声成分,并且前几个成分可以很好地描述原始序列的变化。在本研究中,第1 个奇异值的重构序列为趋势成分,贡献率最大,达到了98. 67%;第2~11 个奇异值的重构序列为振荡成分,贡献率较小,累计为1. 06%;剩下的奇异值对应为重构序列的噪声成分。将其余各个监测站的γ 辐射剂量率亦采用SSA 方法处理后,作为特征融合网络模型的训练数据集。

1. 2. 2 构造输入输出数据

本文使用经SSA 处理后的γ 辐射剂量率数据、气象数据和太阳活动数据作为输入数据,输出当前时刻的目标γ 辐射剂量率数值,形成20 个维度的特征输入,1 个γ 辐射剂量率数值的输出。

输入数据格式如图4 所示,设n _ahead 为单次输入模型的序列长度,按n_ahead+1 长度的窗口从VT 的首位开始依次向右平移, 由此获得batch _size 个组输入数据X 和输出数据Y。其中,输入数据X 的具体维度为(batch _size, seq_len,20),输出数据的具体维度为(total _size,1,1)。

1. 3 特征融合网络模型框架及结构

1. 3. 1 特征融合网络模型训练流程框架

图5 是基于奇异谱分析和特征融合网络模型的γ 辐射剂量率预测流程框架,其中子序列1 ~ 子序列11 分别为对应序号监测点的γ 辐射剂量率数值。

首先,使用奇异谱分析对原始γ 辐射剂量率进行预处理,降低其噪声干扰;其次,将重构降噪后的相关站点辐射参数和目标站点的变化信息,以及气象参数和VTEC 参数信息通过数据转换操作,按照8 ∶ 2 形成具有标签的时序数据训练集和测试集;然后,将训练集输入到特征融合网络进行预测模型训练;最终,使用测试集进行γ 辐射剂量率预测,并根据设置的评价指标形成短期γ 辐射剂量率预测的最优模型。

1. 3. 2 特征融合网络模型结构

本文采用的特征融合网络模型包括并行长短期记忆完全卷积网络( parallel long short-termmemory fully convolutional networks, PLSTM-FCN)和并行循环神经网络完全卷积网络(parallel gratedrecurrent unit fully convolutional networks,PGRU -FCN)两种,是由长短时记忆网络(long short-termmemory networks, LSTM ) / 门控循环单元网络(grated recurrent unit, GRU)、全卷积层和特征融合层的并行排列组成的一种特征融合网络模型结构[17] 。具体网络模型结构如图6 所示。这种结构可以有效地提取时间序列数据的局部特征和全局特征,并且能够同时学习和预测数据的时序信息。

2 实验结果及分析

2. 1 评价指标

采用决定系数(R2 )、均方误差(MSE) 和均方根误差(RMSE)作为特征融合网络模型的评价指标,并以这3 个指标与其他模型方法进行比较。三者计算公式如下:

式中,n 为预测样本的数量; yi 和y′i 分别表示真实值和预测值。R2 系数是度量预测值与真实值之间关系的指标,数值越大表示预测性能越好。RMSE和MSE 是度量预测值与真实值之间误差的指标,数值越小表示误差越小。

2. 2 实验设置与结果分析

2. 2. 1 特征融合网络预测模块参数设计

由于GRU 网络结构与LSTM 网络结构相似,GRU 神经网络神经元的输入变量只有当前时刻的输入数据和上一时刻的状态,故仅需要将PLSTMFCN中的LSTM 神经元换为GRU 神经元即可变换为PGRU-FCN。在这一部分使用PLSTM-FCN 网络作为实验搭建网络示例。

PLSTM-FCN 网络模块初始设置如下:FCN 特征提取模块,一层Conv1D 层,卷积核数为15,大小为3;LSTM 模块,LSTM 网络为一层,神经元数为5。在实验过程中,首先固定FCN 特征提取模块的参数,分析LSTM 网络的层数单元数量对模型预测结果的影响,确定LSTM 网络的最佳参数;然后,固定LSTM 网络的参数,分析FCN 层数和卷积核数目对预测结果的影响,以确定FCN 特征提取模块的最佳参数;最终,得出PLSTM-FCN 网络的参数。实验学习训练次数均为20 次,实验结果列于表3和表4。

由表3、表4 结果可知,PLSTM-FCN 网络模块的最佳网络结构为:FCN 局部特征提取模块为1层conv1D 层,卷积核数为15,大小为3;LSTM 网络预测模块为1 层,神经元數目为10。

将LSTM 网络神经元换成GRU 神经元,其他网络超参数不变,设置2 个实验组对模型进行训练,在2 种不同神经元结构下得到的实验结果列于表5。

2. 2. 2 预测结果及分析

将本模型与文献[22] GB 模型进行比较,以验证本模型γ 辐射剂量率预测方面的性能。为了提高实验的可信度并避免偶然性,对测试集进行5次实验,并计算了平均结果。实验结果列于表6。可见,本文特征融合网络预测模型的性能相较于GB 算法有明显提高。

图7 为某日γ 辐射剂量率原始数据与GB 算法预测模型预测数据、特征融合网络( PLSTM -FCN、PGRU-FCN) 预测模型预测数据的对比图。从图中可以看出,在相同的测试样本,特征融合网络预测模型在一些峰值处的拟合程度明显优于GB 算法预测模型,这与实验结果中评价指标的表现相符。

3 结论

γ 輻射剂量率数据易受多种因素影响,导致辐射异常的数据往往淹没在本底数据和其他非辐射异常因素引起的异常数据中。本文研究了单一循环神经网络中LSTM 和GRU 模型对γ 辐射剂量率预测的适配性,并提出了PLSTM-FCN 和PGRUFCN特征融合网络模型。其中,FCN 网络模块负责对切片后的时序数据进行特征提取,捕捉输入序列中的空间信息和局部结构,而RNN 则用于学习序列中的时间依赖性。通过特征融合,PLSTM-FCN 和PGRU-FCN 模型能够更好地捕捉γ 辐射剂量率时间序列中的趋势、周期性和噪声等特征,从而提高了γ 辐射剂量率时间序列的预测准确性。实验结果表明,本文模型具有较高的γ 辐射剂量率预测精确度,为后续开展辐射剂量率异常值的发现、乃至辐射环境预报提供了新思路和方法。

海量的ERMS 辐射数据,具有时间序列长、时空分辨率高和数据分布特征多样等特点,是开展辐射环境变化及相关问题研究的重要科学大数据。未来,可以通过引入注意力机制、增加异常点检测识别、异常数据特征分类等方法,提高异常数据发现及其可解释性能力。

[ 1 ] 中国原子能科学研究院. 环境地表γ 辐射剂量率测定规范:GB/ T 14583—1993[S]. 北京:中国标准出版社,1993.

[ 2 ] 朱耀明,林明贵. 宁德核电厂外围环境γ 辐射连续监测系统[J]. 海峡科学,2015,102(6):75-78+92.

[ 3 ] 沙连茂. 辐射环境监测数据合理性评价中的问题探讨[J]. 环境监控与预警,2017,9(3):1-10.

[ 4 ] 陈爱,周睿东,陈文涛,等. 降雨对连续γ 辐射测量影响的数值拟合[J]. 辐射防护, 2017,37(5):361-368.

[ 5 ] 罗敦烨,沙向东,上官志洪,等. 环境γ 辐射剂量率连续监测数据影响因素和特征分析 [J]. 辐射防护, 2018,38(4):308-318.

LUO Dunye, SHA Xiangdong, SHANGGUAN Zhihong, et al. Study on influence factors and characteristics ofcontinuousmonitoring data of environmental γ dose rate[J]. Radiation Protection,2018,38(4):308-318.

[ 6 ] Bossew P, Cinelli G, Hernndez-Ceballos M, et al. Estimating the terrestrial gamma dose rate by decomposition of theambient doseequivalent rate [J]. Journal of Environmental Radioactivity, 2016,166:296-308.

[ 7 ] 王蕾,王晓芬,赵顺平. 核电基地周围辐射环境监督性监测概况[J]. 辐射防护,2019,39(2):118-123.

WANG Lei, WANG Xiaofen, ZHAO Shunping. Study on influence factors and characteristics of continuousmonitoring dataof environmental γ dose rate[J]. Radiation Protection,2019,39(2):118-123.

[ 8 ] FENG W, ZHANG Y, LI Y, et al. Spatial distribution, risk assessment and influence factors of terrestrial gamma radiationdose in China [J]. Journal of Environmental Radioactivity, 2020,222:106325.

[ 9 ] 王明明,张晓妍. 辐射环境监测领域面向大数据的应急监测数据管理与利用的探讨[J]. 环境保护与循环经济,2016,36(4):60-62.

[10] Sangiorgi M, Ceballos M A H, Iurlaro G, et al. 30 years of European Commission Radioactivity Environmental Monitoringdata bank (REMdb)—An open door to boost environmental radioactivity research[J]. Earth System Science Data, 2019(11):589-601.

[11] US DOE. US DOE(Department of Energy) to fund nuclear data research[EB/ OL]. (2019- 04- 25) [2023- 11- 15].https:/ / www. world-nuclear-news. org/ Articles/ US-DOE-to-fund-nuclear-data-research. 2019.

[12] James Douglas Hamilton. Time series analysis[M]. Princeton: Princeton University Press,1994:43-64.

[13] Mejia J, Avelar-Sosa L, Mederos B, et al. Prediction of time series using an analysis filter bank of LSTM units[ J].Computers & Industrial Engineering, 2021, 157: 107371.

[14] Farhi N, Kohen E, Mamane H, et al. Prediction of wastewater treatment quality using LSTM neural network [ J].Environmental Technology & Innovation, 2021, 23: 101632.

[15] 袁华,陈泽濠. 基于时间卷积神经网络的短时交通流预测算法[J]. 华南理工大学学报(自然科学版),2020,48(11):107-113+122.

[16] 张雪薇,韩震. 基于ConvGRU 深度学习网络模型的海表面温度预测[J]. 大连海洋大学学报,2022,37(3):531-538.

[17] 胡丹,孟新,路帅,等. 一种并行LSTM-FCN 模型在船舶航迹预测中的应用[ J]. 控制与决策,2022,37(8):1955-1961.

[18] David H S. Singular spectrum analysis for time series with missing data[J]. Geophysical Research Letters, 2011,28(16):3187-3190.

[19] 李嘉文,盛德仁,李蔚. 基于分解去噪和LSSVM 的短期风速预测[J]. 能源工程,2021(4):17-24.

[20] 吴坚,项颂,阎诚,等. 基于奇异谱分析的超短期风电功率多步预测[J]. 可再生能源,2021,39(11):1548-1555.

[21] Janik M, Bossew P, Kurihara O. Machine learning methods as a tool to analyse incomplete or irregularly sampled radontime series data[J]. Science of the Total Environment,2018,630:1155-1167.

[22] 朱武峰,王廷银,林明貴,等. 基于Gradient Boosting 算法的ERMS 辐射数据预测[ J]. 计算机系统应用,2019,28(11):37-44.

ZHU Wufeng,WANG Tingyin,LIN Minggui, et al. Prediction of ERMS radiation data based on Gradient Boosting algorithm[J]. Computer System Application,2019,28(11):37-44.

[23] 林武辉,王诗玥,黄亚萍,等. 大气中γ 辐射空气吸收剂量率的波动机制[ J]. 中国环境科学,2022,42(3):1097-1103.

LIN Wuhui,WANG Shiyue,HUANG Yaping,et al. Mechanism of the variable γ radiation air absorbed dose rate in theatmosphere[J]. China Environmental Science,2022,42(3):1097-1103.

猜你喜欢
时间序列
基于分布式架构的时间序列局部相似检测算法
基于嵌入式向量和循环神经网络的用户行为预测方法
医学时间序列中混沌现象的初步研究
基于时间序列分析南京市二手房的定价模型
云南银行产业集聚与地区经济增长研究
基于Eviews上证综合指数预测
上证综指收益率的影响因素分析
基于指数平滑的电站设备故障时间序列预测研究
基于时间序列的我国人均GDP分析与预测
基于线性散列索引的时间序列查询方法研究