基于LSTM神经网络的公交线路可靠性评估

2024-02-02 13:26段晓凡高良鹏简文良陈丹丹
交通工程 2024年1期
关键词:公交线路公交站点

段晓凡, 高良鹏,2, 简文良,3, 陈丹丹

(1.福建理工大学 智能交通系统研究中心, 福州 350108; 2.东南大学 交通学院, 南京 210089;3.同济大学 交通运输学院, 上海 201804; 4.福州市交通运输局, 福州 350100)

0 引言

由于存在道路拥堵、道路事故等问题,我国城市公共交通在准点上下行方面仍有较为显著的不可预测性,这严重影响了出行者对城市公交服务系统的体验. 因此,对于常规公交线路的行程时间可靠性评估分析成为当前公交发展的核心问题.

对于公交运行可靠性的研究,大多数学者考虑到了可靠性的不同评价指标、评价方法以及可靠性的影响因素. 比较常见的评估指标主要有准点率[1-2]、间隔时间可靠性[3-4]、行程时间可靠性[4-6]、出发时间可靠性[4]、乘客等待时间可靠性[7]等. 张玉红[5]认为:提升行程时间可靠性才能更好地保证网络运营的准时性. 周雨阳[6]也提出:通过车辆满载率、行程时间可靠性来评价多模式公交可综合体现稳定性. 可见,行程时间可靠性是目前评估公交可靠性比较常用的指标,可较好体现车辆延误与否. 对于评估方法,杜雨威[8]从静态、实时和预测3个角度出发,并结合不同时段的交通特征,对贵阳市公交线路可靠性进行了评价. Varga[9]提出1种多目标控制策略来保障公交车头时距的稳定性和时刻表的可靠性,其中站点停靠优化模型则用于准确测算站点区间的行驶时间. Borjesson[10]通过对3个时间段和2个中转模式指出行程时间的随机性是引起可靠性波动的重要原因. 对于影响行程时间可靠性的因素,罗霞[11]根据公交定位数据,得到公交可靠性与线路长度、信号交叉口个数、站点个数、时间段等方面均有关系. 朱家哲[12]结合经验从路段平均行程速度、交叉口饱和度等拥堵程度评价指标出发,探究不同拥堵程度与行程时间可靠性的相关关系. 通过逻辑回归模型分析,王玲[13]得出站点数目、是否工作日以及公交通过的区域类型对可靠度有显著影响.

简单传统的评估模型已被广泛应用,但随着近几年车辆数量增加,传统模型的局限性也逐渐凸显,主要表现在模型计算效率低、缺乏对数据进行实时监测和调整的能力,难以应对复杂多变的城市交通环境. 因此机器学习、人工神经网络等方法开始得到重视. 这些方法的主要优点不仅是它们比其他模型更容易实现,而且能在应用时保持高效性能[14]. 罗建平[15]通过分析行程时间的影响因子,建立粒子群优化的轻量级梯度提升机算法预测行程时间. Yu[16]通过公交出行时间与空间和时间域中当前和历史数据的相关性来探索. Pan[17]提出了基于历史数据模型的算法,提取公交车位置、速度和行驶时间数据进行神经网络模型训练,在公交样本序列具有高度非线性和不规则性时表现突出. Agafonov[18]考虑了运输情况的异构信息,利用LSTM对序列数据长时依赖关系的建模能力来预测行程时间. 故有必要选择可捕捉公交行驶时间序列中的潜在模式和趋势的模型评估公交线路可靠性.

总体来说,对于公交可靠性的计算和评估,大部分的专家学者只考虑起点和终点的状态而且只针对某1条或者几条线路评价,分析的结果也许并不能反映整体状况,因此有必要尽可能研究城市范围内的多条线路的所有站点,给出一般性结论. 本文基于公交进出站数据,充分考虑到线路中每个站点的运营情况,构建基于LSTM神经网络的窄界限评估模型解析城市公交线路可靠性,根据评估结果,利用多元线性回归分析高峰期不同站点的可靠性影响因素.

1 可靠性评估模型

1.1 可靠性计算方法

针对可靠性的判断,大多研究只考虑了起点与终点的状态,但是某个站点如果发生延误,会对下游的公交站点造成影响[19]. 由于中间公交站点的行驶情况难以判断,Chen[20]提出可靠性不单单是终点准点的体现,更是中间站点准点的体现. 因此,本文在测度公交线路的整体可靠性时,逐一考虑了各线路各区间的公交车行驶状态,若公交车没有按照规定时间到达下游站点,则判定其在该区间的行驶不可靠. 规定只要该公交线路上有1个行驶区间不可靠,则认为该条公交线路出现运营不可靠的情况. 引入失效概率作为评估指标,若某条公交线路的失效概率越大,则表明其可靠性越低. 公交线路的可靠性可从2个层面逐步计算得到:

1)站点间车辆行驶的可靠性

本文结合北京公交集团对于“准点”的定义,在计算过程中将公交车辆早于时刻表规定时间1 min或者晚于时刻表规定时间2 min内到达站点认定为行驶是可靠的. 将公交车辆到达下游站点的计划行驶时间记为Trij公交车辆到达下游站点的实际行驶时间记为Arij,若满足:

Arij∈[Trij-60,Trij+120]
∀i∈(i,n-1),j∈(2,n),i≠j

(1)

式中,Ar表示本次行驶是可靠的,反之,则说明该次行驶无法满足准点要求;i和j表示同一公交线路中相邻2个站点对应的编号;n为线路站点的最大编号.

由于在实际情况中,公交车辆往往是多次往返穿梭于线路站点之间,因此可将公交线路各个区间中满足条件的实际行驶时间视为1个集合,则各个区间的失效概率应表示为:

(2)

式中,i为公交站点对应的编号;m为第i个站点实际行驶时间数据的数量.应用数理统计方法拟合出城市公交线路各段的失效状态概率分布.

2)公交线路的可靠性

由上述可知,若公交车辆能按照规定时间从上游站点i到达相邻的下游站点j,表明本次行驶处于“可靠”状态,记为Si;反之,若公交车辆不能准时到达下游站点,则说明时刻表在该站点区间上“失效”,记为Fi.

图1为公交线路的运营状态.图中实线表示站点区间的行驶是“可靠”的,虚线表示站点区间的行驶是“失效”的.如图1(a)中,假设由于公交车在站点区间1中失效,导致线路后续可能发生失效的情况,见式(3):

图1 公交线路运营状态说明图

Pf=P(F1)

(3)

在图1(b)中,公交失效的部分从站点区间 1 变为站点区间 2,根据集合理论可知该情况发生的概率为:

Pf=P(F2∩S1)

(4)

同理可得,如图1(c)当车辆失效发生在站点区间3中时,其对应的概率为:

Pf=P(F3∩S2∩S1)

(5)

以此类推,当车辆失效发生在第n个站点,其概率计算公式为:

Pf=P(Fn∩Sn-1∩Sn-2…∩S2∩S1)

(6)

由集合理论可知,某条公交线路发生失效的概率为:

Pf=P(F1)+P(F2∩S1)+P(F3∩S2∩S1)…+
P(Fn∩Sn-1∩Sn-2…∩S2∩S1)

(7)

若将各区间的状态视为集合,则对应地可得到2个子集,分别是可靠子集S和失效子集F.而前述图1(b)和图1(c)中描述时刻表晚点发生在站点区间1之后的公式即可规整为:

Pf=P(F2∩S1)=P{F2∩(R-F1)}=
P(F2∩R)-P(F2∩F1)=
P(F2)-P(F2∩F1)

(8)

Pf=P{F3∩(R-F2)∩(R-F1)}=
P{(F3-F2∩F3)∩(R-F1)}=
P(F3)-P(F2∩F3)-P(F3∩F1)+
P(F3∩F2∩F1)

(9)

相应的,可推导出公交线路发生失效的概率计算公式为:

(10)

式中,公交线路上的失效概率计算量将随着站点区间数量的增加而增加,这不利于对线路可靠性的快速评估.因此,本文考虑通过测度失效概率的上下边界数值来简化计算量,提升计算效率.根据窄界限理论可知,对于公交线路的任意相邻站点区间能满足关系:

P(Sn-1∩Sn-2…∩S1)≤P(Sn)=P(1-Fn)

(11)

通过整合式(10)(11),可得:

(12)

此外,对于公交线路任意站点区间亦能满足关系:

P(Sn-1∩Sn-2…∩S1)≥
1-{P(F1)+P(F2)+…P(Fn-1)}

(13)

可进一步推导出:

(14)

通过整合式(10)(14),可得:

(15)

因此,可得到公交线路的失效概率上下限数值为:

(16)

(17)

式中,Pupper为失效概率的上限值;Plower为失效概率下限值.

为方便计算,本文将失效率取值为其上下限的均值作为公交线路失效概率见式(18):

(18)

1.2 可靠性评估模型

LSTM具有对序列数据长时依赖关系的建模能力. 在公交系统中,1个车辆出现延误可能会导致后续车辆也出现延误,形成延误传播现象. LSTM可通过学习历史公交到站时间来获取潜在的延误情况,并且考虑到延误传播的影响,减少运营风险,提高服务水平.

在LSTM中,早期阶段的记忆可通过包含1条记忆线的槽门来完成. 图2展示了完整的LSTM架构,由输入层、1个或多个隐藏层和输出层组成设置,输入层的大小等于输入变量的数量,LSTM网络的主要特征包含在所谓的存储单元组成的隐藏层中. 根据之前的输入序列(如时间)观察保持细胞状态ct,但也能消除被认为不相关的信息.为了实现这种机制,信息的维护由3个门控制:输入门、忘记门和输出门.3个门中的每1个都呈现了在前1个的存储单元的输出Pf-1以及本次输出Pf.设w表示任意单位的权重,根据权重更新策略不断优化.每个门在t时刻产生1个状态变量,分别是Gt、It以及单元输出Ot.多个LSTM可堆叠,本文选择2层LSTM堆叠,这样可学习到更复杂的数量信息模式.

图2 完整的LSTM架构

图2中定义Gt是遗忘门输出,将上一时刻的失效概率Pf-1和当前时刻的行驶时间Arij,同时传递到sigmoid函数中去,输出值介于0和1之间,丢弃接近0的数据.

Gt=σ(wG[Pf-1,Arij]+bG)

(19)

定义It为输入门,Ct为当前状态需要记忆的信息.通过sigmoid函数调整值,也要传递到tanh函数中得到候选值,确定训练所需的行驶时间.更新过后的状态记为Lt.

It=σ(wI[Pf-1,Arij]+bI)

(20)

Ct=tanh (wC[Pf-1,Arij]+bC)

(21)

Lt=GtLt-1+ItCt

(22)

定义Ot为输出门,用来确定下1个失效概率的值作为当前步长的输出,将其作为新的隐藏状态传递到下1个时间步长.Pf代表输出门的状态,也是当前时刻线路的失效概率.

Ot=σ(wO[Pf-1,Arij]+bO)

(23)

Pt=Ottanh (Ct)

(24)

将数据处理过后的行驶时间作为输入送到LSTM,并使用上文提到的窄界限法来计算公交线路的实际失效概率作为输出训练LSTM神经网络.

1.3 训练属性

为了使用所提出的模型,需要训练它来优化每1层中的学习参数,例如权重w和偏差b. 优化后的参数可映射输入向量和输出向量之间的关系.

按照机器学习中的正常趋势,训练和测试数据集被分离为7/10和3/10,采用了均方误差(MSE)和平均绝对误差(MAE)作为损失函数,这两个损失函数都是凸函数,相对于其他损失函数来说比较容易优化,而且更具直观性. MSE可用于检查得到的失效概率和真实失效概率的偏差程度,而MAE值可用于表示测试结果与真实失效概率的绝对偏差见式(25)(26).

(25)

(26)

式中,N是预测/训练样本的数量;vprediction是基于评估模型得到的公交线路失效概率;vtruth是从通过公交进出站数据计算得到的失效概率.

2 案例分析

2.1 实验数据

为检验本文方法的可行性与有效性,收集公交路线信息和实时数据,以评估模型性能,研究重点是江苏宜兴的公交车辆,如图3所示. 宜兴市是江苏省无锡市代管县级市,位于江苏省西南端,地处沪宁杭三角中心,下辖5个街区和13个乡镇. 目前,宜兴市拥有公交线路51条,公交线网运营的总长度约246.4 km,日均发车班次5 400个,日均运量16.6万人次. 城市整体的公交线网密度为1.48 km/km2,城市出行结构中公交分担率达到26%. 城市公交已经成为宜兴市居民日常出行的1种重要方式.

图3 江苏宜兴公交路线

在这项工作中,选取了江苏宜兴的26条公交路线以及他们在2019年12月公交车辆进出车站记录作为实验数据,数据主要包括公交线路编号、站点编号、站点名称、车辆牌号、到达与驶离各站点的经纬度、时间戳、方向等.

2.2 结果分析

公交相邻站点间的行驶时间可作为1个向量,计算出站间和线路的失效概率,进一步应用LSTM算法来测试得到矢量. 当LSTM模型中的隐藏层的数量设置为20时,MSE为1.96,MAE为0.85,实现了该模型的最佳性能.

为证明本文方法的高效准确性,将其与蒙特卡洛法、BP神经网络模型比较,结果如图4所示. 与相对传统的蒙特卡洛法比较,虽然计算速度相比较而言较快,但它在相同的迭代次数下收敛速度较慢,很难得到真实值. 而与现如今比较常用的BP模型相比,LSTM模型期望值与实际值差距更为细微. 随着迭代次数增加,LSTM网络模型的误差逐渐减小并最后趋于稳定,它将MSE降低了3.5%、MAE降低了2.9%,减少了较小的误差差距. BP模型之所以出现较差效果是因为它给定的初始权值与阈值是随机的,导致每一次的运算结果会有出入,需不断尝试得到最优的隐含层节点数目,得到最优解的过程较长. 由此表明LSTM评估模型在得到线路失效概率的效率和准确率方面表现良好.

图4 公交线路失效概率

图4列举了12月30日公交线路失效概率,根据失效概率数值可得到1路、7路、9路、19路、112路车可靠性相较于其余线路略低,而4路、14路、151路、153路车的可靠性较高. 经过研究发现,可靠性偏低线路的途经站点大多数位于中心城区较为繁华的地带,具有较高的交通拥堵与交通事故发生率. 道路拥堵状况、停靠条件以及人流量都有可能影响公交线路的可靠性,因此本研究从站点所处地理位置的真实情况入手进行分析以达到提升线路的可靠性的目的.

高峰期交通流量巨大,大部分站点都会出现延误现象,但是延误程度却各有差异. 本文根据评估结果,选取早高峰07:00—09:00时段与晚高峰17:00—19:00时段的公交线路中相对具有代表性的50个站点评估其可靠性,并通过调查它们的车道数量、交叉路口红绿灯数量、站台设置位置以及停靠线路数量来研究影响站点可靠性的原因,部分站点的总体情况如表1所示.

表1 部分站点总体情况

通过多元线性回归模型分析它们与可靠性之间的关系,模型的R2为0.93,表明模型拟合程度较好. 多元线性回归模型在探究多个自变量对因变量的影响时,可消除其他自变量的影响,以便更加准确地评估每个自变量的影响. 通过表2可看出,车道数量、路口信号灯数量与停靠线路数量的P值均小于0.05,说明这3个方面与可靠性关系显著. 从回归系数可看出车道数量与可靠性成正相关,信号灯数量、停靠线路数量与可靠性成负相关. 而且车道数量与停靠线路数量对可靠性影响较大,信号灯数量对可靠性影响较小.

表2 多元线性回归分析

在所调查站点中,树人中学、人民医院、劝业广场、苏南商厦、世纪大桥、迎宾路、荆溪新村、上海新苑的可靠性较低. 通过结合高德地图可看出,这些站点大部分集中在学校、医院、商圈、交通枢纽附近,主要是因为这些地点的内在属性导致了高峰期时段人流量和车流量密集,停靠线路数量过多而车道数量过少无法缓解交通堵塞导致车辆不准点. 也有少部分可靠性低的站点分布在住宅区,可能因为公交车在穿越繁忙的老城区时,需要面对狭窄的街道和拥堵的交通,从而影响了车辆的行驶速度和准点率. 如果能针对不同的地点和原因,提出相应的应对建议,如增加站点、调整线路、增加备用车辆、提高司机素质等措施,即能有效提高线路的可靠性,提升乘客体验感.

3 结束语

本文将可靠性的概念引入到公交线路的评估中,通过解析公交车辆在上下游相邻站点区间的行驶过程,计算站点和线路的失效概率,构建基于LSTM神经网络的窄界限评估模型,高效准确地得到公交线路的可靠性. 所提出的评估方法是1种简单的全局性评估方法,日常评估过程不受网络拓扑结构的影响. 特别地,采用此种方法可减少原始方法所耗费的时间,根据最终评估结果反映出其中的薄弱环节以便优化. 通过案例分析得到,26条公交线路的可靠性存在差异,提取了相对具有代表性的站点,进一步利用多元线性回归分析方法,探究影响高峰期站点可靠性高低的原因与车道数量、路口信号灯数量、线路数量均有关系. 对于未来的工作,可进一步探索精细化的可靠性评估模型,采集不同城市、不同交通状况的公交站点、线路以及行程时间数据,满足多站点同步评估的功能需求,实现对不同车辆调度运营方案的可靠性预警.

猜你喜欢
公交线路公交站点
一元公交开进太行深处
基于Web站点的SQL注入分析与防范
2017~2018年冬季西北地区某站点流感流行特征分析
等公交
首届欧洲自行车共享站点协商会召开
怕被人认出
青岛至莱西全国首条纯电动城际公交线路开通 移动的环保“箱” 绿色出行有保障
城市轨道交通车站联合配置短驳道路公交线路的方法
最美公交线路上的“最美司机”