考虑稀疏特性的城市轨道交通短时OD时空预测方法

2023-11-13 07:57李浩然许心越李建民张安忠

铁道科学与工程学报 2023年10期

李浩然，许心越，李建民，张安忠

(北京交通大学轨道交通控制与安全国家重点实验室，北京 100089)

城市轨道交通作为一种高效便捷的出行方式，在公共交通中扮演重要角色，其在高速发展的同时，客流拥挤、服务水平下降等问题日益显著[1-2]。城市轨道交通OD 需求可以很好地揭示乘客在轨道交通路网上的时空分布，有助于运营部门调整列车运行、减缓客流拥挤、提升乘客服务质量[3-4]。因此，如何准确、快速地预测城市轨道交通短时OD 需求成为了运营部门做出科学运营策略急需解决的问题。目前，城市轨道交通短时OD 预测方法主要包括传统统计模型和机器学习模型这2类。传统模型包括状态空间模型[5-6]、回归模型[7]等。姚向明等[5]基于状态空间模型实现了城市轨道交通OD预测，具有一定的适用性。陈志杰等[6]提出一种新的状态空间模型实现不同粒度OD 的预测，提高了OD 预测的准确性。SILVA 等[7]将自回归模型引入OD 预测中，实现了伦敦市地铁OD 的预测。机器学习模型包括卡尔曼滤波[8]、神经网络模型[9]等。高梦琦[8]将卡尔曼滤波与长短期记忆神经网络结合，实现了波动OD 数据预测。LIU 等[9]集成多源数据，利用递归神经网络对OD 进行预测，具有较高的预测精度。然而，以上预测方法存在以下3个方面不足：1)对于大规模路网的动态高维度OD，无法满足短时OD预测的时效性[10]；2)OD矩阵的稀疏性导致预测结果受噪音影响较大[11]，预测精度不高；3)未考虑OD需求的时空相关性[12]。为解决OD数据的高维性和稀疏性，有研究引入矩阵分解方法进行OD预测[13-14]。LIU等[13]构建了矩阵分解方法对OD 实现预测，提高了预测的效率。张竣伟等[14]采用非负矩阵分解方法对北京市道路OD 进行预测，具有较强的解释性。GONG等[15]开发了一种矩阵分解模型，用于预测地铁系统的OD 矩阵，加强了预测的适用性。NOURSALEHI 等[16]提出了一种离散小波(Discrete Wavelet Transformation,DWT)的矩阵分解方法提取OD 矩阵中多分辨率空间特征，提升稀疏OD 预测精度。但以上研究对OD 间的时间相关性考虑不足，导致预测效果存在一定的局限。动态模式分解(Dynamic Mode Decomposition,DMD)作为一种对时间相关性具有良好提取效果的矩阵分解方法，已受到广泛关注[17-18]。KWAK 等[17]应用动态模式分解实现了高速公路路网矩阵旅行时间的时序预测。CHENG 等[18]提出一种基于动态模式分解的矩阵分解方法实现OD 矩阵的预测，具有较高的预测精度。综上，本文建立基于时空分解和动态模式分解的混合预测模型(Prediction Model based on Spatio-Temporal Decomposition and Dynamic Mode Decomposition,STDMD)，实现OD 矩阵的准确快速预测。具体地，采用动态模式分解方法实现动态时序预测模型的构建，对OD 矩阵进行降维去噪，解决OD 矩阵的高维性和稀疏性。针对OD 矩阵在空间维度上的特征复杂特性，使用离散小波分解，实现OD 需求时空相关性的刻画。相比于现有模型，在预测精度上和计算时间上均具有优势。

1 基于时空分解和动态模式分解的短时预测模型

1.1 问题描述

城市轨道交通网络中，OD 客流为车站与车站间的客流需求量，定义xi,j,t为在t时刻单位时间间隔内由站i进站至站j出站的客流量，可以将一个路网中的所有OD对的客流量通过一个矩阵Xt进行表示：

其中：N为城市轨道交通路网中地铁站的数量。

OD 客流在时间维度上具有长期的周期性特征，如工作日存在早晚高峰特征等，并且具有短期的自相关性，客流需求会受到前序客流的影响。在空间维度上由于车站之间的影响，OD 对上的客流会受到其他OD 对的客流影响，这些影响通常是复杂难以直接捕获的[12]。同时，路网OD 客流矩阵具有高维度和稀疏性，矩阵中路网中大部分的客流集中于小部分的OD 对上，其他OD 对上客流处于较小的状态，致使OD 预测受噪音影响较大，导致时效性与准确性下降[11]，并且由于智能卡数据只有出行完成才可记录，实时的OD 客流无法实时获取[10]。本文对未来路网OD 客流序列=[Xt+1,…,Xt+T]进行预测，其中T是预测步数。针对以上特性，从历史长期路网OD 客流序列Xlong=[Xt-H,…,Xt]中提取长期时间周期性，其中H是长期OD 数据长度；从短期路网OD 客流序列Xshort=[Xt-h,…,Xt]中提取短期时间相关性，其中h是短时前序长度。在预测过程中对OD 矩阵进行分解，解决OD 矩阵的高维度和稀疏性导致的预测困难问题，引入实时进站量Zt作为协变量弥补实时OD 无法获取的缺陷：

通过式(1)的映射关系f2引入进站量对OD 需求进行分解和时序预测，通过f1将短期时序数据与历史长期时序数据结合，实现未来15 min 粒度路网站间OD客流序列的准确、快速、实时预测。

1.2 基于时空分解和动态模式分解的预测原理

1.2.1 离散小波变换

对于二维OD 矩阵，行和列被视为一维信号，离散小波变换能够将OD 矩阵变换为一系列的小波系数并将这些系数进行高效地压缩和储存。与傅立叶变换相比，小波具有多分辨率和正交性，多分辨率能够通过放大和缩小分析图像，捕捉不同的时间和频率变化，正交性意味着子矩阵之间具有完全不同的特征，这些特征通常是原始矩阵中常常被忽视的特征。

设I∊RM×N为二维矩阵，二维离散小波变换计算公式如下：

其中：φm,n表示不同尺度和位置的尺度函数；表示不同尺度和位置的小波函数。

二维矩阵经小波变换处理后每个级别获得4个子带，其中3 个子带图像WLH，WHL和WHH分别是沿水平、垂直和对角线方向的图像。离散小波分解放大了不同频率子带的特征，可凸显稀疏矩阵中难以提取的特征，有利于提高预测准确性。

1.2.2 动态模式分解

由于矩阵的稀疏性，导致小规模OD 客流受噪音影响较大，且矩阵维度高，计算复杂，本文针对OD 矩阵稀疏性和高维性采用DMD 进行OD 矩阵的预测。动态模式分解可将非线性的系统用线性的模式和特征值来描述，可将复杂的矩阵特征分解为低秩的时空特征，通过矩阵的秩截断降低系数矩阵和数据矩阵的维度，降低求解难度，减少噪音的影响。

首先构建预测模型，对离散小波分解后的矩阵的各子矩阵进行拉伸，变换为一维向量：

其中：为离散小波变换后的子矩阵元素，c={WLL,WLH,WHL,WHH}；l为矩阵的长宽，即车站数量。

动态模式分解的预测模型为：

为求解该模型，首先拓展数据至训练数据长度L：

对YL进行秩截断奇异值分解(Truncated Singular Value Decomposition,TSVD)：

对系数矩阵和客流矩阵进行以下变换：

同理对进站客流协变量进行变换，经过以上变换，可将预测模型等价转换为：

其中：是的伪逆。

最后通过变换得到子矩阵预测结果：

动态模式分解通过系数矩阵和数据矩阵的变换，减少数据维度，避免了由于矩阵的高维性导致的求解计算困难，通过秩截断保留主要特征向量，减少了数据的噪声影响，同时实现时间序列预测。

1.3 地铁网络短时OD混合预测模型

本文建立基于时空分解和动态模式分解的混合预测模型，模型分为时空分解模块、动态模式分解预测模块和分解重构模块。在时空分解模块中，针对OD 需求的长期周期特性融合时间序列分解(Seasonal Decomposition of Time Series by Loess,STL)[19]分离出周期变化量。针对OD 需求在空间维度上特征复杂难以提取的特性，对周期分离后的OD 矩阵，在空间上通过DWT 有效地提取矩阵空间上的信息。在动态模式分解预测模块中，考虑客流需求的短期自相关性，针对OD 需求的高维度和稀疏性特点，通过DMD 对OD 矩阵秩截断降噪和降维，实现稀疏矩阵的准确快速预测，同时引入进站量对模型进行修正。最后，通过分解重构模块将OD矩阵进行还原。方法框架如图1所示。

图1 基于时空分解和动态模式分解的混合预测模型Fig.1 Prediction model based on spatio-temporal decomposition and dynamic mode decomposition

第1 部分将OD 矩阵序列进行时空分解。基于长期的历史OD 矩阵序列，通过STL 分解提取客流长期时间特征，得到客流周期分量LtS，对周期分量进行延展即可得到周期预测量。基于短期OD矩阵序列，通过STL 分解提取客流短期时间特征，得到客流趋势分量LtT，之后将趋势分量矩阵进行离散小波变换，得到客流趋势子分量，：

第2 部分对趋势子分量进行动态模式分解预测。结合当前时段进站量Zt，构建基于向量自回归的预测模型。采用动态模式分解方法对客流矩阵进行分解降维，减少计算维度，同时对矩阵中的主要特征进行提取，剔除部分噪音影响。最终预测得到趋势预测子分量。

该模块的输入输出即为：

第3部分对各预测分量进行重构。通过离散小波逆变换，客流趋势预测子分量重构得到客流趋势预测量，结合周期分量延展得到的周期预测量，将得到预测结果：

2 案例分析

2.1 数据描述

为验证算法与模型的有效性，以北京地铁1号线和2 号线的38 个车站进行案例研究，选取2018年6 月1 日—6 月30 日的工作日总计20 d，5:30—23:30 的AFC 数据作为研究时间范围，采用15 min时间间隔粒度进行实验，前15 d 用于模型的求解计算，最后5 d 用于结果预测，将预测结果与真实数据进行对比，对模型的性能进行检验。

2.2 模型预测过程

首先对通过时空分解模块案例车站矩阵进行分解，以四惠站—建国门站OD 为例，如图2 所示。通过STL 分解分离出各OD 对在时间维度上的趋势分量与周期分量，分别考虑OD 客流量的短期特征与长期特征。对时序分解得到的短期趋势分量矩阵，通过离散小波变换在空间上对矩阵进行分解，如图3所示。子带中体现出了原始数据中由于数据稀疏性而易被忽视的空间特征，从而提升预测精度。

图2 时间维度分解Fig.2 Decomposition in time dimension

图3 空间维度分解Fig.3 Decomposition in spatial dimension

通过动态模式分解预测模块对各趋势分量序列进行预测，得到各预测分量，最终通过重构模块得到最终预测结果。选取多种类OD 对的预测结果如图4 所示，包含了多种车站，如郊区车站(苹果园)、交通枢纽站(四惠站)、旅游车站(鼓楼大街站)以及商业区车站(建国门)等，同时这些OD 对包含了单线内OD和跨线OD，具有一定的代表性。

图4 多种类OD对的客流量Fig.4 Passenger flow of different OD pairs

2.3 预测结果分析

2.3.1 整体预测效果分析

对于评价指标，本文采用绝对平均误差(MAE)、均方根误差(RMSE)和加权平均绝对百分比误差(WMAPE)来评价模型的预测精度，定义为：

为了评价本文模型的性能，选用以下模型作为基准模型进行对比分析。

1) HA，历史平均。利用历史同期数据对下一时刻进行预测。

2) ConvLSTM，卷积长短期记忆网络。LSTM长短期记忆网络的改进模型，对数据特征有更好的提取效果。

3) VAR，向量自回归。该模型把系统中每一个内生变量作为系统中所有内生变量的滞后值的函数，将单变量自回归模型推广到由多元时间序列变量组成的“向量”自回归模型。

4) TRMF，时间正则化矩阵分解。TRMF 是一种矩阵分解模型，它对每个时间因子施加自回归(AR)过程。

5) STDMD-STL。从本文模型中去除周期特征部分。

6) STDMD-DWT。从本文模型中去除数据多分辨率特提取部分。

对于下一时段的OD 客流量整体预测结果如表1所示。

表1 各模型预测结果对比Table 1 Comparison of prediction results of models

可以看到在整体的预测结果上，本文模型在各项评估指标上均优于其他基准模型。对比Conv-LSTM 此类非线性模型，本文模型在MAE，RMSE和WMAPE 上分别降低了0.086，0.683 和0.023，说明该模型具有不逊色于非线性模型的特征提取能力。本文模型相较于VAR 此类线性模型，MAE，RMSE 和WMAPE 分别降低了0.299，0.934和0.08，说明该模型通过秩截断，在降低噪声影响方面具有较好的效果。对比TRMF 模型，本文模型也有更好的性能。

同时，将本文模型与分别去除周期特征分解和多分辨率特征分解的2 个模型进行比较，2 类特征均有利于提高精度预测精度，其中周期特征对预测结果具有较大的影响，说明该模型可对周期特征进行充分的挖掘。

为了对模型的效果进行更细致的评价，对OD客流量根据大小分为3 类进行拆分对比分析，OD等级划分如表2所示。

表2 OD等级划分Table 2 Gradation of OD demand

对于不同等级的下一时段的OD 预测结果如表3 所示。从表3 可观察到，本文模型对高OD 需求以及中OD 需求的预测精度具有显著提升作用，均优于基准模型，特别是相比于ConvLSTM 以及VAR，本文模型在高OD 需求的WMAPE 下降了50%以上。同时，本文模型在低OD 需求的预测上也有较好的表现，效果接近于ConvLSTM 和STDMD-STL。从表3 还可以观察到，STDMD-STL 模型在不同等级的OD 需求中的表现差异较大，本文模型与之相比，在高、中、低OD 需求的WMAPE分别下降了0.265，0.131 和上升了0.011，在低OD需求具有优秀效果的同时，在高OD 需求和中OD需求的表现不佳，这进一步说明了本文模型对于低OD 需求的特征提取具有较强的作用，以及STL模块在该模型中对于中、高OD 需求的特征提取具有显著效果。

表3 不同OD等级下各模型预测结果对比Table 3 Comparison of prediction results of models under different OD grades

2.3.2 离散小波变换模块效果分析

本节对DWT 分解的作用进行分析，从整体效果和单个OD 对效果2 个方面解释DWT 对特征提取的作用。

首先，从整体预测效果角度分析。通过表3预测结果可知，对比STDMD-DWT，本文模型对3类OD 的预测性能均有提升，对于高、中、低3 类OD 的RMSE 分别降低了1.5%，0.9% 和0.8%，WMAPE 分别降低了1.4%，1.1%以及0.2%。说明本模型在加入DWT 后，OD 需求在各等级的预测性能均有提升。

进一步，从单个OD 对分析，以苹果园站—五棵松站OD 对为例进行详细分析。如图5 所示为本文模型预测值与STDMD-DWT 模型预测值与真实值曲线。可观察高OD需求部分时间为5:30—8:30，此时本文模型与STDMD-DWT 模型无明显差距，本文模型和STDMD-DWT 模型的MAE 分别为8.484 和8.508，降低了0.28%。在低OD 需求部分对应时间为12:00—15:00，此时可观察到本文模型相比于STDMD-DWT 模型具有更好的拟合效果，本文模型和STDMD-DWT 模型的MAE 分别为2.903 和5.233，降低了44.53%。由上可知，DWT在本文模型中针对呈锯齿状的平峰时段的低OD 需求可以获取更多的特征以提升预测精度。

图5 高峰平峰时段不同模型在OD对的预测结果对比(苹果园站—五棵松站)Fig.5 Comparison results of OD pair during the peak period and the flat period (Pingguoyuan—Wukesong)

2.3.3 动态模式分解模块效果分析

本节分析动态模式分解对OD 预测效果的影响，从模型求解与预测时间以及预测效果2个角度解释动态模式分解对减少噪音影响以及减少计算时间的作用。将本文模型与时空分解+VAR(ST+VAR)预测以及时空分解+ConvLSTM(ST+ConvLSTM)预测结果进行详细对比。

首先，在预测精度层面，本文模型在整体上优于基准模型，如表1所示，说明动态模式分解在预测效果上具备良好性能。同时，本文以木樨地站—东四十条站为例进一步说明动态模式分解对提升预测精度的作用。如图6所示，本文模型相比ST+VAR模型在平峰时段的预测上更加平滑，说明动态模式分解通过矩阵秩截断可去除矩阵中的噪音部分，提升模型的抗干扰能力。而ST+ConvLSTM 模型在预测上的糟糕表现也是源自于矩阵中的噪音，这进一步说明了动态模式分解对于预测精度的提升源自于对噪音的屏蔽去除。

图6 对比模型在OD对预测结果对比(木樨地站—东四十条站)Fig.6 Comparison results of OD pair (Muxidi—Dongsishitiao)

在模型求解与预测时间层面，本文模型在模型求解时间以及预测时间上均优于基准模型，如表4 所示。相比于ST+VAR 模型，本文模型最大的区别在于对矩阵进行了特征值截断，大幅度降低了矩阵的维度，从而减少了计算时间，在模型求解时间上缩短了44.8%，在预测时间上缩短了95.6%。而相比于ST+ConvLSTM 模型，本文模型充分发挥了线性模型求解速度快的优势，相比于深度学习小时级别的模型求解时间，本文模型快速求解的优点可实现模型的快速更新迭代，模型求解成本较小，更适用于实际应用。

表4 不同模型的求解预测时间Table 4 Solution time and prediction time of different models

2.4 鲁棒性分析

本节对本文模型的鲁棒性进行测试分析，选用其他数据集对模型进行验证。以杭州地铁80 个车站为研究对象，数据集为杭州地铁2019 年1 月1日—1 月25 日，每天5:30—23:30 期间30 min 粒度的AFC 刷卡数据，选取前10 个工作日作为训练集，随后4 个工作日作为验证集，最后5 个工作日设定为测试集与预测结果进行对比。

预测结果如表5所示，结果表明，本文模型的预测效果在不同数据集上优于各基准模型。在数据集1 上，相比于ConvLSTM，SVR，本文模型的MAE 分别下降了0.686 和0.89，RMSE 值分别下降了0.945和2.964，表明本文模型对于不同线路上的OD 预测效果具有优势。在数据集2 上，相比于ConvLSTM 和SVR，本文模型的MAE 分别下降了0.686 和0.89，RMSE 值分别下降了0.945 和2.964，表明本文模型在不同的轨道系统以及不同时间粒度的数据集上具有较好的预测性能。综上所述，本文模型具有较强的鲁棒性。

表5 杭州数据集上各模型预测结果对比Table 5 Comparison of prediction results of models on Hangzhou data set

3 结论

1) 针对地铁OD 客流数据维度高、数据稀疏的特点，提出面向稀疏数据的城市轨道交通短时OD时空预测方法，可以准确快速地预测地铁OD 需求矩阵。相比于HA，VAR，ConvLSTM 等模型，本文模型在预测精度与模型求解时间上均处于优势。

2) 引入动态模式分解预测，在保留矩阵特征的同时，大幅减少矩阵维度，减少噪声对矩阵稀疏部分的干扰，提高了本文模型的应用性。

3) 分别使用北京地铁和杭州地铁的OD 数据验证本文提出的模型，验证了本文模型的鲁棒性。

地铁OD 矩阵内车站自身具有属性，后续可深入研究OD 对中的车站属性对客流量的影响，并与本文模型结合，提高模型的泛化能力。