Regformer:基于稀疏注意力的输油管道水力压降预测方法

2024-03-05 08:20李亚平王军防余红梅窦一民田继林
计算机与现代化 2024年1期
关键词:水力注意力公式

李亚平,王军防,余红梅,窦一民,肖 媛,田继林

(1.国家管网集团东部原油储运有限公司,江苏 徐州 221008;2.中国石油大学(华东)计算机科学与技术学院,山东 青岛 266580)

0 引 言

输油管道的运行管理是涉及国家政治、经济、社会、技术、安全及生态环境等多方面的大型系统工程[1]。日仪线采用长距离油品混输的方式运输油品,如对油品在管道的水力损失计算不准确,可能导致油品运输方案不合理,造成油品管道的能耗与安全问题,为减少油品在管道输送过程中的能源消耗,使油品能够安全高效地运输,准确计算出管道输送油品的水力损失具有十分重要的意义。同时正确的水力预测计算能够为油田生产、集输管网的设计提供可靠依据[2]。

输油管道的水力计算一般使用传统的水力计算公式[3-5],其具有直观、容易计算的特点。但由于管道中运输的油品情况复杂,一般由多种类型油品混合运输,混合油品的粘度系数难以及时测量和准确估计,管壁的粗糙度等因素也难以测量,同时常用的谢才公式、达西公式等管道水力计算公式中存在较多的经验数值,导致在理论计算时管道水力计算的压降不准确。

近年来有不少研究学者在油气管道水力计算领域提出了新方法,战征[6]基于顺北油气田输送现场实际运行数据对气液混输管道水力计算常用5 种模型进行筛选,采用压降计算模型与气液界面摩擦因数修正的方法,建立水力计算模型;赵洪洋等人[7]利用最优化方法,采用多项式修正管道粘度系数,使得修正后的粘度系数更符合管道实际运行情况,但该方法修正所需的参数较多,执行效率低。杨凯[8]利用最小二乘法,修正了传统经验公式中的经验系数,提升了输油管道水力预测的精度。

以上方法基于原有经验公式,对公式中的参数进行优化和修正,因此仍保留了经验公式法的局限性。所以,一些学者使用机器学习方法,将水力压降预测作为回归问题[9-12]。陈新果等人[13]结合流体力学特性建立了一个预测大型输气管网水力参数的深度学习结构网络模型,区别于传统水力计算方法,该模型仅依托于大量管道压降样本数据即可准确预测管道水力状态;李树杉等人[14]提出CPSO-RBF 神经网络,建立管道预测模型实现进站油温和压力的预测。杨树人等人[2]提出了混输管道数据库压降插值计算方法;王力等人[15]提出了基于面向对象和二叉树的油气集输管网水力计算;Shadloo 等人[16]利用多层感知器(Multi-Layer Perceptron,MLP)神经网络模型预测压降。机器学习方法摆脱了经验公式法的局限性,但其极度依赖大量数据,由训练集得到的参数固定。这些固定权重回归的学习模型目的在于学习特征空间的决策边界或拟合曲线,当目标任务受到隐变量等其他未知因素影响时,这些方法就难以泛化到更多的测试样例或真实的工程场景中。

本文为了解决输油管道水力预测受管输油品的物性、管径、长度、温度等多种因素影响,常用的管道水力计算公式由于管输油品的流态难以确定以及存在损态的问题、在理论计算时管道水力计算的压降不准确的问题,引入了自注意力机制,其原因在于注意力机制对于不同的输入能够自适应生成不同的决策边界,对于多因素控制的回归任务可能具有良好的效果。该机制在Transformer[17]方法中首次被提出,Transformer 是Google 团队在2017 年提出的一种深度学习方法,最初被引入到NLP 领域的Transformer 由于其优异的表现已经渗透到多种领域,在多种任务中都非常有效。Wang 等人[18]提出了一种新的分层Transformer,采用多任务体系结构,利用季度业绩电话会议的文本和音频数据来预测未来短期和长期的价格波动。Daiya等人[19]提出了一种基于Transformer的多模式深度学习架构,使用扩张因果卷积和Transformer 块从财务指标和新闻数据中提取特征进行股票走势预测。Xu 等人[20]提出了一种新的时空Transformer 网络(STTNs),利用动态定向空间依赖和长期时间依赖来提高长期交通预测的准确性。Zhang 等人[21]提出了基于Transformer 的双方面自注意机制(DAST)预测工业设备的使用寿命。DAST 由2 个编码器组成并行工作同时提取不同传感器和时间步长的特征,自适应地学习专注于输入的更重要部分。Mo 等人[22]提出将Transformer 编码器作为模型的主干,捕捉时间序列中的短期和长期依赖关系,并进一步提出了一个门控卷积单元促进模型在每个时间步合并局部上下文的能力。Zhou 等人[23]将Transformer应用于长时间序列预测(Long Sequence Time-Series Forecasting,LSTF)中,提 出 了Infomer,其LSTF的性能显著优于Transformer。

综上,Transformer及其改进方法已经成功应用到各种场景中,与LSTF 任务类似,Transformer 虽然非常具有潜力,但是将其应用于回归任务仍需要解决2 个主要问题:1)Transformer的密集注意力对常规的回归任务来说是冗余的,这些多余的参数会导致模型训练慢和过拟合;2)Transformer 的编码-解码结构不适用回归任务,而仅使用其编码器需要将其特征使用平均或感知机加权,削弱了注意力机制的优势。

为解决以上问题,本文提出一种水力压降回归预测方法Regformer,主要工作原理如下:

1)设计一种平滑概率方法,引入稀疏自注意力机制,显著减少自注意力的计算量。该方法可作为一种正则化方法嵌入自注意力模型中。

2)加入自适应特征投影,使得模型在预测阶段也能够充分挖掘各输入属性关联,动态调整回归参数,提高模型准确率。

1 相关理论

1.1 传统经验公式及修正

传统经验公式是根据流体力学原理通过实验得来的,最为常用的是达西公式。管道的压力损失包括流体沿程水头损失、局部水头损失和高度差引起的位能损失3个部分,其计算公式如式(1)所示:

其中,△p为管道压降,ρ为油品密度,g为重力系数,hf为沿程摩阻损失,hj为局部摩阻损失,hz为管道高程差。

沿程摩阻损失如式(2)所示:

其中,λ为粘度系数,流态不同λ计算公式不同,V为输油管道内油品流量,L为管道长度,D为管径。

在使用传统水力公式进行管道水力计算时,粘度系数λ对计算结果影响较大,并且λ的计算公式中的常系数由实验室数据确定,这导致水力的计算结果与真实值存在一定偏差。为解决这一问题,采用最小二乘方法,根据输油管道历史运行数据,对计算公式中的常系数修正。修正形式如式(3)所示。

其中,λi为实际粘度系数,γi为修正后的粘度系数,m为训练数据的样本总量,i为第i个训练数据,a1、a2、a3为修正经验系数,Re为雷诺数。

1.2 Transformer中的自注意力机制

Transformer 是一种利用自注意力机制来提高模型训练速度的模型,在机器翻译、文本摘要和文本生成等任务上都取得了很好的效果。它抛弃了传统的CNN[24]和RNN[25],整个网络结构完全是由自注意力机制组成。其整体是由编码器和解码器组成的,而编码器和解码器是基于自注意力的模块叠加而成的。Transformer 利用了大量的自注意力机制来捕获数据里面的依赖信息,传统的自注意力机制主要由查询矩阵Q=XWQ、键矩阵K=XWK和值矩阵V=XWV组成,其中X是输入的数据矩阵,WQ、WK、WV是3个可训练的参数矩阵,由此,利用自注意力机制可以使参数矩阵随输入的X矩阵的变化而变化,Transformer 中注意力的计算公式[17]为式(4)。

其中,d为缩放因子L为X的长度,LQ、LK、LV分别为矩阵Q、K、V的长度。

Transformer计算注意力的时候,会计算每一个点与其他所有点的注意力,每一层的计算复杂度都是O(L2),当X长度增长的时候,计算开销以平方倍增长。

2 Regformer方法

传统经验公式是根据流体力学原理通过实验得来的,计算公式中的经验参数往往由实验室数据确定,这导致水力的计算结果与真实值存在一定偏差。而一般的机器学习方法希望通过拟合训练集得到决策边界或拟合曲线,这些边界或曲线是固定的,而压降预测受到多种因素影响,不仅是输入的显式变量,而且输入变量也受到其他因素的线性影响,因此需要充分挖掘属性的关联,而不是采用固定的决策边界,对于不同的输入数据应动态地回归预测。因此本文提出一种水力压降回归预测方法Regformer,设计一种平滑概率方法,引入稀疏自注意力机制作为正则化方法嵌入自注意力模型,显著减少自注意力的计算量。另外,加入自适应特征投影,使得模型在预测阶段也能够充分挖掘各输入属性关联,动态调整回归参数,提高模型准确率。

2.1 稀疏自注意力机制

Transformer 的自注意力需计算Q与K的矩阵乘法,即计算每一个点与其他所有点的注意力,计算开销容易随着输入数据的增加以平方倍增长。正如Zhou 等人[23]所提到的,自注意力具有稀疏性,其分布呈现一个长尾分布,只有少数的点积对对主要的注意力有贡献,为了降低注意力的计算量,稀疏自注意力机制中仅计算一些非常重要的有代表性的点积对,其他的点积对可以忽略。事实上,多余的计算量不但浪费计算资源,还会导致过拟合,尤其是回归任务,数据量少,特征单一,冗余的计算会导致性能的下降。

将原始的注意力计算公式转变为概率形式,以筛选出最重要的查询向量来降低计算复杂度,其中第i个注意力被定义为如式(5)所示的核平滑的概率形式。

其中p(kj|qi)=k(qi,kj)/∑lk(qi,kj),kj代表键向量、qi代表查询向量,vj代表值向量。

利用KL散度来评估第i个查询向量的稀疏性,其中q是一个均匀分布的概率,p是本文选取的注意力概率分布,进而可以计算p和q的一个相对熵,写成如式(6)形式。

得到第i个查询向量的稀疏性评价公式,在该评价体系中,计算出来的评分越大,就意味着KL散度越大,注意力概率分布和注意力均匀分布相对熵越大。

将常数项舍弃,M(qi,K)表示注意力概率分布和注意力均匀分布相对熵,得到式(7)所示公式。

采取这种方式,需要遍历qi,依旧需要O(L2)的复杂度才能把L个查询向量的稀疏性评价值全部算出,由于M(qi,K)中第一项含义指数累加并取对数操作,会造成精度截断的问题,导致数值不稳定。受此影响,提出查询向量稀疏性评估的近似,随机选取u=c·lnLQ个点积对进行计算,其中c是采样参数,用来代替,得到式(8)所示公式,至此,复杂度降为O(LlnL)。

基于查询向量稀疏性评估的近似,定义稀疏自注意力的形式如式(9)所示,是和q具有相同尺寸的稀疏矩阵,其中包含了根据(qi,K)计算出来的前u个较大的查询向量。

该方法使自注意力计算复杂度从O(L2)降低到O(LlnL),显著降低了自注意力的计算量,提高了预测速度。

2.2 自适应特征投影

经过自注意力层后的特征仍以向量的方式表示,需要使用特征投影得到最终的结果,目前常用的方式有平均加权和感知机。平均加权在图像分类领域最常见,也被称为GAP(Global Average Pooling)[26]。其可以表示为公式(10):

其中,̂是最终的回归结果,n是最终层的元素数量,zi表示每个元素。平均加权极其依赖主干网络的性能,将权重分配任务推给上一级网络。

感知机即使用一层全连接神经网络,对向量的各个元素施以固定的权重,权重来源于训练过程,其可以表示为公式(11):

这2 类方法的权重在推理阶段都是固定的,削弱了自注意力动态回归参数的优势。Hu等人[27]的工作激发了笔者的灵感,在此基础上本文提出自适应的特征投影方法。

主干网络输出特征表示为V={z1,z2,···,zn},其分为2 个阶段,首先汇总主干网络输出特征的信息,即通过全连接操作将其长度压缩为1/2,表示为公式(12):

其中,sq是指将每个通道的特征映射为一个可以表示其全局信息的数,由于V1是由特征聚合得到的,因此各元素之间的隐式关联被嵌入其中,冗余的信息被删除。然后继续通过一个全连接将其膨胀回原始长度,表示为公式(13):

其中,ex是指特征向量学习每个通道的特征权重,σ为Sigmoid 激活函数,它使得特征被归一化,对低维特征的膨胀和映射,即是对密集特征Vsq的稀疏化,并将稀疏化的特征作为回归的动态权重,其表示为公式(14):

随着梯度下降的不断演进,网络会自适应找到相对最优的压缩与膨胀参数,对于回归任务来说,对于每个输入x,网络都能自适应产生不同的Vex,而不是固定参数,极大提高了模型的表达能力,增加了其泛化性能,网络整体结构如图1所示。

图1 Regformer网络结构图

3 对比实验及结果分析

模型基于Pytorch深度学习框架实现,使用TeslaP100 16 GB训练,优化器为Adam[28],学习率为0.001。

为了评估Regformer 的有效性,本文使用了10 个具有不同变量的实际问题(数据集)测试所提出的方法,这些数据集来自KEEL,其详细信息和定义如表1所示。该数据集中的问题与压降预测类似,属于多维回归问题,即通过多个输入属性预测目标属性,可以较好地验证所提出方法的有效性。最后,对比了压降数据上的性能。

表1 公共数据集

3.1 数据预处理

这些数据采集自实际场景,同一数据集的各个属性的数量级差异较大,因此将数据集的各个属性分别标准化,以确保算法能够均衡地学习到每一个属性的特征。具体操作为,首先,将各个属性分别z-score 标准化,如式(15)所示:

经过z-score 后的数据符合标准正态分布,即方差为1,均值为0。然后将数据的最大值和最小值限制为5和-5,以删除离群值。

3.2 KEEL数据集

本 文 对 比RandomForest[29]、LightGBM[30]、XGBoost[31]、CART[32]、SVR[33]、AdaBoost[34]、MLP[35]这7 个常规机器学习方法,以及Transformer[17]和Regformer这2个自注意力方法。回归方法不需要特征解码,因此Transformer 和Regformer 仅使用了2 层编码结构,Transformer的特征映射使用全连接代替。最终的实验结果如表2所示。

表2 公共数据集实验表

公共数据的定量实验表明了自注意力方法与传统机器学习方法相比有显著优势。为了进一步分析Regformer 对于各类数据集的拟合程度,本文对测试集上的数据进行可视化,篇幅限制,仅可视化其最具代表性、性能相对较好的方法。定量实验显示了RandomForest、LightGBM 和XGBoost 在传统机器学习方法中相对有较好的回归性能,因此本文将重点对这3 个方法进行定性讨论。首先是4 种方法在concrete数据集上的定性结果,如图2所示。

图2 4种方法在concrete数据上的定性结果

为方便实验观测,对测试集拟合曲线进行了高斯平滑,平滑前的曲线做了虚化处理。定性结果显示4种方法都基本完成了对测试曲线的拟合,但是Regformer 方法对局部突变具有更好的处理能力,正如红色箭头处所示,Regformer 对测试数据局部的变化更加合缝。在machineCPU 数据上的结果也可验证这一结论,如图3所示。

图3 4种方法在machineCPU数据上的定性结果

在平滑后的曲线中,Regformer 几乎完全拟合了测试集,这充分体现了自注意力机制与自适应特征投影的有效性。在machineCPU 数据中,RandomForest、LightGBM 和XGBoost 对几个非平稳的变化显示了不适应性,正如图3(a)红色箭头的位置所示,仅有Regformer 对该处的相位和振幅进行了很好的拟合。在图4 的abalone 数据中,虽然RandomForest、Light-GBM 和XGBoost 与Regformer 的MAE 仅报告了8.0%、13.6%和19.9%的的差异,但Regformer 定性实验显示了更加明显的优势,正如图4 红色箭头处所示,除了Regformer 其他3 个方法都无法对此处的极值进行很好的表达。

图4 4种方法在abalone数据上的定性结果

综上,实验证明了Regformer 在回归任务中的强大性能。在公开数据中,Regformer 在大部分的测试数据集中报告了显著的优势,仅在ANACALT 和delta_elv 数据中弱于RandomForest、LightGBM 和XGBoost方法,但没有明显的差距。

3.3 水力压降预测数据集

本节验证在水力压降预测数据集上的结果,该数据集来自徐州中国石化集团管道储运公司。正如引言中所提到的,压降回归充满不确定性,由于实际热油管道运行工况的复杂性,如管壁粗糙度、原油粘温特性等物性的变化,增加了压降的预测难度。该数据提供了流量、动力粘度和密度对回归最关键的3 个属性,以及对应管道压降,共499 条数据,本文选择其中的144 条作为测试数据,355 条作为训练数据。首先进行消融实验,在Transformer 的基础上进行了2 个重要改进使其更适合用于水力压降回归任务,即稀疏注意力机制和自适应特征投影,表3 展示了关于这2 个组件的消融实验。

表3 消融实验结果

表3 中FLOPs(Floating Point Operations)指浮点运算数,一般用来衡量深度学习模型的复杂度。表3中,组1 为对照组,组2 为仅应用了稀疏注意力的方法,其计算量在低于对照组31%的情况下,性能仍有所提升,这表明了稀疏注意力的有效性。组3 为应用了自适应投影的方法,相比对照组,虽然计算量有所提升,但获得了性能改进。组4同时应用了2个组件,在计算量低于对照组30%的情况下,定量指标有显著的提升,这表明了本文所提出的组件是有效的。

表4为水力数据实验表,显示了自注意力方法在水力压降预测任务中显著的优势,其主要原因在于注意力机制对于各项权重的自适应性,这对于受制于多种条件影响的回归任务是至关重要的。其中Regformer表现出了比Transformer更好的性能,这得益于自适应投影模块贯彻了注意力机制的特点,而使用全连接投影的Transformer在输出层削弱了注意力机制的作用。本文进一步通过测试集上的定性实验来说明,如图5所示。

表4 水力数据实验表

图5 压降预测定性实验

图5 中,大部分方法对于红色箭头处的测试集极值报告出现了误判,只有自注意力方法显示了对该处较强的适应性。大部分通过固定权重回归的学习模型目的在于在学习特征空间的决策边界或拟合曲线,对于极限情况或局部的极值进行了模糊化处理,而自注意力方法对于不同的输入有不同的决策边界或拟合曲线,因此对于极限情况有更好的效果。Regformer 因为稀疏注意力的存在,将计算量缩减了30%,并在压降预测任务中取得了更好的结果。

4 结束语

本文将稀疏注意力机制引入回归任务中,并设计了自适应特征投影,从而提出了Regformer 水力压降预测方法。通过2 个实验验证了该方法在公共数据集的通用回归性能和在水力压降预测中的性能。在10 个公共数据集上对7 种方法的对比中,Regformer展现了显著的优势,定性实验显示了Regformer 对于局部的突变有很好的拟合能力。在水力压降预测中,基于自注意力的2 个方法明显优于其他算法,实验表明了自注意力方法对于多变量不确定性的回归任务具有显著的优势,尤其是对极端情况的处理体现了自适应回归参数的重要性,而Regformer 用了更少的计算量取得了比Transformer更好的性能,验证了本文所提出的稀疏注意力和自适应特征投影方法在水力压降预测任务中的优越性。

猜你喜欢
水力注意力公式
组合数与组合数公式
排列数与排列数公式
让注意力“飞”回来
等差数列前2n-1及2n项和公式与应用
例说:二倍角公式的巧用
“扬眼”APP:让注意力“变现”
球墨铸铁管的水力计算
A Beautiful Way Of Looking At Things
戽流消能水力特性数值模拟
水力喷射压裂中环空水力封隔全尺寸实验