混合模型在网约车出行预测研究中的应用

2022-08-16 07:01帅春燕王昱翔
关键词:交通流预测值分量

帅春燕,王昱翔,许 庚

(1.昆明理工大学 交通工程学院,昆明 650500; 2.昆明市规划设计研究院 市政与交通所,昆明 650051)

0 引言

在网约车出行领域,打车软件可以对海量的网约车出行订单数据进行收集,对网约车出行数据进行分析运用是一个较为关键的现实问题。网约车出行交通流的预测是目前交通领域的研究热点,主要是基于交通流时间序列来构建合适的模型,如经典统计模型,差分整合移动平均自回归[1],人工神经网络,长短期记忆神经网络[2]。通过获取不同的交通流[3]特征和变化规律,对短期交通流进行不同精度的预测,而合理的模型可以有效提高精度,减少误差。

在交通流实时预测方面,Smith等[4]运用差分整合移动平均自回归模型(ARIMA)对高速公路交通流进行预测分析,但ARIMA模型通常要求交通流序列满足平稳性和自相关,难以捕获非线性关系;林永杰等[5]通过人工神经网络(ANN)模型对出租车出行需求进行预测,验证了人工神经网络在需求预测上更优于传统自回归滑动平均模型;崔淑敏等[6]运用深度学习方法DLDP提取轨迹特征,从而提高对出租车目的地预测准确率,但模型计算复杂,对数据稀疏程度较敏感。

在混合模型交通流预测方面,段宗涛等[7]根据历史数据,构建了机器学习混合模型,引进残差单元来加深网络层数,并结合数据临近性、周期性和趋势性来对出租车需求进行预测;罗文慧等[8]将CNN和LSTM集成在DL结构中,对时空序列问题进行了挖掘和分析;Cai等[9]等利用GSA算法对SVR参数进行寻优,对交通流时间序列进行实时预测;Feng等[10]通过对交通流的非线性和随机性进行研究,提出了一种基于时空相关性的自适应多核支持向量机(AMSVM)短期交通流预测模型,但由于耗费大量时间,基于SVR的模型很难实现大规模的训练样本。陆百川等[11]结合交通流时空特性和数据特征,提出GA-WNN路网短时交通流预测模型;赵阳阳等[12]运用经验模态分解将时间序列转化为本征模函数及残差,并利用长短时记忆神经网络对地铁客流进行预测。

虽然基于神经网络的模型在交通流预测中表现良好,但这些模型仍然难以对交通流的随机波动性和规律性进行完全捕捉。为解决这些问题,有研究者运用经验模态分解(EMD)[13]和奇异谱分析(SSA)[14]对短期交通流时间序列进行分解降噪,并运用LSTM、ANN等模型进行预测分析。本文提出一种基于SSA-LSTM-SVR的网约车实时订单出行交通流预测模型来对交通流进行更准确地预测。首先,利用SSA将短时交通流分解为1个主分量和多个随机分量,对于反映交通流的规律性和周期性的主成分,采用LSTM进行预测,对于不稳定的随机分量,引入SVR模型进行预测。最后将各分量对应的预测结果叠加融合,形成预测值。同时引入粒子群优化(PSO)算法[15]对SSA-LSTM-SVR模型的分解参数进行优化,最后通过实际交通流数据对模型进行了验证,并与其他模型的预测效果进行了比较。

1 模型介绍

1.1 奇异谱分析(SSA)

奇异谱分析(singular spectrum analysis,SSA)主要运用于非线性时间序列的研究,对原始的时间序列进行分解和重构处理,可以对原始时间序列进行降噪,处理后的序列相比原始序列更加光滑,有利于预测精度的提升,本文运用SSA算法,将短期交通流的轨迹矩阵进行分解和重构,并提取出周期项和趋势项,对噪声干扰进行去除。SSA分解主要分为4个步骤。

步骤1构建轨迹矩阵

对于长度为T的交通流X(t)=[x1,x2,x3,…,xT],构建L×K阶轨迹矩阵如式(1),L为嵌套纬度,通常也称为窗口长度,其中,L(2

(1)

步骤2奇异值分解(SVD)

X=X1+X2+X3+…+Xd

(2)

步骤3分组

将Xi(i=1,2,3,…,d)划分为p个不同的组,即:

(3)

对于给定分量Xi的贡献率为:

(4)

步骤4重构

将分组得到的矩阵转换为长度为T的重构成分,所有重构成分叠加即为新的序列,定义Ri(t)=[r1,r2,r3,…,rT]为经过对角平均化处理后得到的序列,Ri(t)序列中第k个元素为矩阵Xi=(zij)L×K中满足i+j=k+1的所有元素均值,对角平均化具体操作如式(5):

(5)

对角平均化处理后,原始交通流序列X(t)=[x1,x2,x3,…,xT]分解为N个序列之和。

(6)

其中,i+n≤d,1≤k≤Γ,Xk(t)是原始时间序列的特征序列,每个特征序列都有自己独特的特征,并且相互变化,Xk(t)的和等于原始级数,即:

(7)

为了使短期交通流的预测结果接近地面真实情况,首先利用SSA将网约车出行交通流分解为主分量和多个随机分量,根据它们各自的特点,讨论适合各个分量特征的预测模型。

1.2 长短期记忆神经网络(LSTM)

由于SSA分解的网约车出行交通流主成分能较好地反映交通流的周期性和规律性,因此引进LSTM进行预测。长短时神经网络LSTM在RNN的基础上,解决了基础RNN模型在预测过程中随着层数增加而产生梯度爆炸的问题。LSTM主要由4个部分组成:输入门、遗忘门、输出门以及存储单元。当输入门被激活,输入的每一个时间步长信息都会累积到该单元,同时遗忘门会有几率把过去的细胞状态进行“遗忘”操作,输出门控制最终状态,存储单元控制信息流,并在单元中计算梯度。在交通流预测中,X(t)为输入网约车出行交通流数据,LSTM模型具体结构如图1所示。

图1 LSTM结构图

如图1所示,xt和ht表示在t时刻的输入和输出。ft、gt和οt分别为遗忘门、输入门、输出门的输出,其映射函数如下:

ft=σ(Wf[ht-1,xt]+bf)

(8)

gt=σ(Wg[ht-1,xt]+bg)

(9)

Jt= ReLU(WJ[ht-1,xt]+bJ)

(10)

οt=σ(Wο[ht-1,xt]+bο)

(11)

st=ft*st-1+gt*Jt

(12)

ht=οt*ReLU(st)

(13)

1.3 支持向量回归(SVR)

针对网约车出行交通流随机分量特征复杂、非线性强的特点,引进支持向量回归(SVR)算法对随机分量进行预测分析。SVR是一种应用广泛的交通流预测模型,它将数据点尽可能映射到高维状态空间的最优超平面上,实现回归和预测。对于一个规模为{(xi,yi),i=1,2,3,…,T}的样本集,其中xi和yi分别为输入值和输出值,SVR的回归函数为:

f(x)=〈w·xi〉+b

(14)

其中,〈w·xi〉表示向量w和x的内积,b是偏移量,损失函数为:

(15)

误差ε>0,w和b可以通过求解最小目标函数得到:

(16)

C>0是惩罚因子,在不同的核函数中,径向基核函数(RBF)因优良的非线性特性而被广泛应用,其定义为:

(17)

(18)

1.4 SSA-LSTM-SVR模型

SSA-LSTM-SVR模型混合模型由SSA、LSTM和SVR 3个模型组成,SSA-LSTM-SVR模型结构如图2所示,SSA将网约车出行交通流序列X(t)分解为Γ个分量,第k个分量记为Xk(t)。通常分解得到的第1个分量为原始时间序列的主分量,其余子分量均为随机分量。由式(7)得知,各分量之和为X(t)。Xi(t)(i∈{1,2,3,…,Γ})所对应的奇异值个数占奇异总数的百分比记为μi,同时通过PSO算法对模型分解参数μi进行优化,μi的和等于1,符合:

图2 SSA-LSTM-SVR模型结构

(19)

本文根据网约车出行交通流特征将原始序列X(t)分为1个主分量和3个随机子分量。对于SSA分解后的不同分量Xi(t),根据其规律和特点,采用LSTM模型对规律性和平滑性较强的主分量进行预测,对3个随机性和突变性较强的随机分量采用SVR模型预测,最后将所有分量的预测值Yi(t)进行叠加融合,得到原始时间序列X(t)的预测值Y(t),即:

(20)

2 实验分析

2.1 评估指标

本文采用均方根误差RMSE、平均绝对误差MAE、正确率ACC、决定系数R2、平均绝对百分比误差MAPE这5个评估指标对模型预测性能进行评估。

(21)

(22)

(23)

(24)

(25)

2.2 出行区域划分

实验数据采用2017年7、8月份海口市中心区区域网约车出行流量数据,为方便对出行区域进行分析,将海口市中心区域进行网格划分。每个网格代表一个出行区域。为合理划分出行区域网格的边长大小,对2个月内270万条订单的出行距离进行统计,3 km(起步标准)以内的出行订单量约占25%,低于6.8 km的订单量约占50%,12 km以内的订单量约占90%,订单出行的平均距离为6.8 km。可以得知网约车出行主要是短距离出行,据此,选择以起步价3 km长度为网格边长,将海口市中心区域划分为7×12个网格区域,并对划分后的网格进行编号,划分结果如图3所示。

图3 地图网格化

2.3 网约车出行流量特征分析

以60 min为时间间隔对各个划分区域的流量数据进行提取,以编号31网格出行区域为例,抽取了10天的交通流时间序列,如图4所示,可以看出交通流量每天都在变化,且变化趋势和规律相对固定,随机性较强,交通流在一天中会呈现不同状态,具有明显的高低峰出行特征。根据出行特征,将一天分为3个时段,其中7∶00—9∶00和18∶00—20∶00为早晚高峰时段,24点至次日7点为休息时段,其他为非高峰时段。

图4 原始交通流时间序列

图5展示了7月1日的出行流量在地图网格化基础上的热力图,可以看出网约车打车出行范围非常集中,不同出行区域订单量差距较大。为方便实验,根据出行区域内订单量的数量将出行区域分为大量级和中量级。

图5 出行流量热力图

2.4 SSA分解

对编号31出行区域的网约车出行交通流进行SSA分解,以60 min为时间间隔,一天有24个值,选取窗口为24,然后得到组分的数量和权重,分别为μ1=0.3、μ2=0.3、μ3=0.3和μ4=0.1。

SVD首先对交通流序列构建的轨迹矩阵进行分解,寻找并提取交通流序列的内在自相关关系。然后根据这些相关性,通过对序列进行分组、重构和分解,找出序列内在的变化规律和随机特征,这些步骤将交通流序列分解为不同的分量,有利于突出其各自的规律和特点,弱化分量混杂造成的相互影响。根据交通流的特征,将其分解为1个主分量和3个随机分量,对于模型来说,LSTM更适合于规律性和平滑性强的主分量,SVR更适合于随机性和突变性强的随机分量,图6中主分量与原始交通流时间序列(图4)的大小和变化规律与原始交通流基本一致,变化更平稳,因此采用LSTM捕捉这些特征并进行短期预测;而3个随机分量的幅值小,随机扰动大,且没有明显的变化规律,这些特性会大大增加预测的难度,SVR更适合于随机性和突变性强的随机分量。最后将每个分量部分的预测值叠加融合,得到最终预测值。

图6 交通流SSA分解曲线

2.5 预测结果分析

利用这些分解参数,对市中心区域网约车出行交通流进行分析,选取时间粒度为60 min,根据出行区域量级大小的不同,抽取了部分典型出行区域进行模型预测性能验证。为了更好地凸显SSA-LSTM-SVR模型的预测性能,引进了SVR、LSTM、ARIMA、BP、RNN 5个模型进行对比分析:① 自回归整合移动平均值(ARIMA)模型是把出行流量时间序列分解为线性平稳序列;② BP神经网络通过反向传播误差进行训练;③ 循环神经网络(RNN)通常用于处理和预测序列数据。不同量级区域模型预测结果如表1所示。

表1 大/中量级出行区域预测指标结果

可以看出,区域量级的大小会对预测的精度和误差造成影响,数据稀疏程度越高,误差会变大,对精度的影响也越大。

对具有规律性、突发性和随机性等复杂特征的时间序列,单一模型具有局限性,RNN模型由于梯度爆炸问题,导致预测效果不佳;ARIMA模型很难捕捉序列的非线性关系;BP模型训练效率不高,容易出现过拟合;而SVR与LSTM对交通流中的序列特征均难做到完全捕捉,从而造成误差增大。

SSA-LSTM-SVR混合模型对交通流序列进行了分解处理,并结合不同模型的特点,可有效捕捉序列特征,预测指标MAE、RMSE和MAPE均为最小,拟合度R2和预测精度均高于其他模型,相比于其他对比模型,SSA-LSTM-SVR模型的MAPE平均下降了4%以上,预测精度平均提高了6%以上,表明SSA-LSTM-SVR模型能够更好地识别交通流时间序列的短期变化规律,同时也说明SSA-LSTM-SVR模型具有较好的泛化能力和较好的预测性能。

2.6 真实值与预测值对比

为了进一步观察出行区域预测值和真实值的差异,从不同量级中各抽取了2个典型区域进行对比,从图7、图8可以看出SSA-LSTM-SVR的预测值在不同量级区域,都能很好地与真实值拟合,能够捕捉到时间序列的细微变化,包括高低峰时段的上升和下降的突变趋势。而SVR、LSTM总体预测误差较大,尤其是在交通流时间序列发生突变的情况下。随着交通流量的下降和上升,LSTM和SVR不能很好地捕捉到时间变化趋势。

图7 大量级区域真实值预测值曲线

图8 中量级区域真实值预测值曲线

2.7 分时段预测

为了进一步观察SSA-LSTM-SVR模型在一天中的预测细节,从不同量级区域中挑选了编号30、31、19、42这4个典型出行区域进行分时段预测,结果如图9所示,可以看出一天中精度和误差在不同时段上存在差异,这是因为在不同时段出行流量大小不同,出行流量大的时刻,数据密集程度高,模型训练效果较好。同时,在不同量级区域,ACC和RMSE指标的变化趋势相同,表明SSA-LSTM-SVR模型无论数据稀疏大小,都可以很好地捕捉到一天中出行交通量的变化趋势。

图9 分时段预测结果曲线

3 结论

网约车出行交通流的短时预测一直是智能交通研究中的重要课题,由于网约车出行交通流的内在复杂性,单一模型的预测精度有限,因此,本文提出了组合预测模型的思想。在SSA-LSTM-SVR中,SSA根据交通流序列的线性自相关进行分量分解,LSTM和SVR分别捕捉不同分量的非线性关系,实验表明,与RNN模型、ARIMA模型、BP模型、SVR模型以及LSTM模型相比,SSA-LSTM-SVR模型能够捕获更多的特征,具有更好的预测性能,预测值与真实值的差值最小,拟合效果最好。SSA-LSTM-SVR模型的MAPE平均下降4%以上,预测精度平均提高6%以上。结果表明,由于时间序列具有规律性、突发性和随机性等复杂特征,单一模型很难完全捕捉网约车出行复杂交通流序列的特征,采用混合模型进行短期预测效果会更好。

本文只考虑部分典型出行区域的交通流,未来将进一步探讨不同出行区域之间交通流的相互影响,实现更准确的短时交通流预测。

猜你喜欢
交通流预测值分量
基于LSTM的沪渝高速公路短时交通流预测研究
AI讲座:ML的分类方法
画里有话
自体荧光内镜对消化道肿瘤诊断临床应用分析
一斤生漆的“分量”——“漆农”刘照元的平常生活
一物千斤
论《哈姆雷特》中良心的分量
季节模型在某医院月门诊量预测中的研究与应用
广州港大濠水道定线制引航要领
基于元胞自动机模拟沪金高速道路车流中的应用