基于深度强化学习的通勤走廊韧性恢复双层规划

2024-04-29 12:14李雪岩张同宇祝歆

复杂系统与复杂性科学 2024年1期

关键词：韧性

李雪岩　张同宇　祝歆

摘要：為实现通勤走廊内机动公交接驳方案的科学设计，将其韧性恢复过程视为复杂环境中接驳方案经过探索迭代实现韧性提升的双层规划。引入深度强化学习算法构建上层规划，采用价值函数神经网络拟合突发事件与出行者集群行为对接驳方案调整的反应函数，训练接驳方案达到决策目标。下层规划运用元胞神经网络模拟数据智能背景下的集群出行行为。实例研究表明，方法可以使通勤走廊韧性得到有效提升，而集群行为会对韧性恢复产生负面影响。

关键词：通勤走廊；韧性；接驳方案；深度强化学习；集群行为

中图分类号： U121;U491文献标识码： A

Bi-level Programming for Resilience Restoration of Commuting Corridor Based on Deep Reinforcement Learning

LI Xueyana， ZHANG Tongyub， ZHU Xina

（a.School of Management; b. School of Urban Rail Transit and Logistics， Beijing Union University， Beijing 100101， China）

Abstract：In order to realize the scientific design of motor bus transferring scheme in the commuter corridor， the resilience recovery process of commuting corridor is regarded as a bi-level programming in which the resilience is improved through continuous exploration and iteration of ground bus transferring scheme in complex environment. The deep reinforcement learning algorithm is introduced to form the upper level planning， and the value function neural network is used to fit the response function of emergencies and travelers cluster behavior to the adjustment of ground bus transferring scheme. The decision-making objective is achieved by training the transferring schemes. In the lower level planning， the cellular neural network model is introduced to simulate the cluster travel choice behavior under the background of data intelligence. The case study shows that this method can effectively improve the resilience of the commuter corridor， and the cluster behavior will have a negative impact on the resilience recovery.

Keywords： commuting corridor; resilience; transferring scheme; deep reinforcement learning; cluster behavior

0 引言

超大型城市往往存在职住不平衡的特征，通勤走廊则以多种交通方式联动合作的方式满足较大时空尺度下的大规模人员流动需求，以北京市为例，城市副中心已实现以轨道交通为主的大容量快速交通体系，然而，据近年来的《北京交通发展年报》显示，连接副中心与主城区的一号线东段工作日拥挤时间占比高达58.33%，可见，在提升改造轨道交通硬件承载力的同时，还须进一步加强地面公交线路接驳方案的科学设计，从而有效释放运输压力，增强通勤走廊韧性。

自Murray Tuite［1］提出整体交通系统韧性概念以来，对交通系统韧性的研究主要集中于线网系统整体的中断响应、适应性、安全性、吸收能力弹复性［2］等方面，进一步研究表明，运输线路结构调整产生的通行性能变化又是改变交通系统韧性的重要因素［23］，由于优化的线路可有效疏解拥挤、提高运输效率，因此以通行性能提升为目标的接驳方案优化可提升交通系统的韧性恢复水平［4］。

针对交通系统韧性或性能提升，既有研究往往侧重于线网系统的物理性质变化，运用智能优化算法获取站点的修复策略［56］，取得了良好的线网物理性能恢复效果；而在微观层面，对特定出行场景（如通勤走廊）和韧性恢复的具体实施对象讨论较少，也对出行者集群的内在决策过程及行为复杂性进行了不同程度的简化。然而，在现实通勤场景中，集群行为的涌现性是带来交通系统性能、效率波动乃至产生反直觉悖论的重要诱因［7］，数据智能背景下，社会成员均可通过各种智能设备实时获取完全的出行信息，与各类信息源的互动效应增强，集群活动的演化会与物理、信息、社会系统所构成的环境相互反馈［89］，产生短时并行集群行为，加之不同个体对效用的感知差异，如推理特征［10］、对避峰政策反应的异质性［11］等，使集群行为与非线性信息加工效应的叠加产生涌现现象，表现为难以预测的突发性流量波动传导与拥堵［12］，从而影响交通系统性能。可见，忽视这一因素会带来优化方案有效性的偏差，因此，将集群行为产生的均衡转移因素引入交通系统韧性的计算具有合理性。如果能够事先模拟出某些站点在突发停运条件下，通勤走廊集群行为复杂性与流量结构的演化结果，则可以为应急运力调配与协调提供正向反馈，有效提高韧性恢复策略的准确性。

本文的建模思路为：在集群行为刻画方面，运用元胞神经网络模拟数据智能背景下的集群出行复杂性，将通勤走廊的韧性恢复过程视为一个在复杂环境中，机动公交接驳方案经过不断探索调节实现动态优化的双层反馈学习过程，基于深度Q值强化学习（Deep Q-learning，DQN）在交通规划问题中的迭代思想［1314］，通过价值函数神经网络感知复杂环境变化，对智能体输出的接驳方案进行奖惩，输出最优韧性恢复方案。

1 问题描述与公交通勤走廊韧性的刻画

1.1 问题描述

考虑公交通勤走廊G=V，A，由N个地铁站与N个与之对应的地面公交站构成，V表示站点集合，A表示站点之间的路段集合（a∈A）。R为地面公交线路集合，且已存在一条经停各站的公交线，每条线路由站点与路段构成，D表示通勤走廊的OD需求矩阵，D=D1，1…D1，NDN，1…DN，N，Di，j为站点i，j间的日出行需求，i，j∈V，在出行起讫点i，j之间，出行者可以选择地铁（m），也可以选择地面公交r（无换乘，r∈R，）。在每天的出行活动时间段0，T中，出行者有M种出发时间选择，表示为τ1=0，τ2=T/M，τ3=2T/M，…，τM=M-1T/M，对于τ∈τ1，τ2，…，τM，令qi，jτ表示站点i，j间选择τ时刻出行的人数，qκi，jτ表示站点i，j间选择τ时刻出发且选择出行方式κ的人数，则qi，jτ=∑κ∈R，mqκi，jτ。地铁站可能由于各类原因突发性停运（对于停运站点i或j，qmi，jτ=0），本文的科学问题为：针对地铁站点突发停运事件，给出地面公交机动线路接驳方案，实现通勤走廊韧性的有效恢复。

1.2 通行效率视角下通勤走廊的韧性评估

考虑出发时间选择差异对线路流量的影响，τM-1时刻进入路段的出行者不会全部在时间段τM-1，τM内离开。定义0-1变量ξa，κ，τi，jτ′，当站点i，j间τ时刻出发的出行者在τ′时刻能够进入路段a时，ξa，κ，τi，jτ′=1，否则ξa，κ，τi，jτ′=0，则τ′时刻各路段的进入流量可表示为：uaτ′=∑Ni=1∑Nj=1∑κ∑τqκi，jτξa，κ，τi，jτ′。选择不同出发时间时，公交线路的行程时间由未来τ′时刻的通勤走廊状态决定，表示为

4 基于真实场景的数值模拟

本文的数值模拟以北京地铁1号线为例，基于该线路区间“国贸”至“通州北苑”（见图2）这一典型通勤走廊内两两站点之间的真实客流刷卡数据（日期：2017年12月19日—12月25日，以天为单位取工作日平均值，见表1）作为Di，j取值，该段线路地铁站与對应公交站点的重合度较高，暂不考虑地铁站出口与公交站位置影响，数值模拟环境为Matlab 2019a。

其中，Logit模型效用感知系数与出发时间感知系数θ参考文献［15］中通勤者的效用系数得到（基于参数θ的数量级，将元胞神经网络中的集群学习强度pc设置为保证3.2小节中步骤3收敛的最大值），α，α1，α2，β，β1，β2，λu依据文献［16］、［17］取值，λ1～λ4依据文献［18］取值，ρ取0.5表示出行者群体为风险中性，由于地面公交的时间稳定性劣于地铁，因此设置变异系数φr>φm，Te，Tb，Tl取值依据现实中的平均上班时间，考虑发车频率与容量因素，设置cmetro>cbus。依据本文问题结构与搜索空间规模，设置动作变量为Δx′s∈{在X′s的基础上降低7，……，在X′m的基础上降低1，保持不变，在X′s的基础上提高1，在X′s的基础上提高7}，DQN迭代训练400次。站点间票价、地铁站点间行程时间依据高德地图数据取值。选取数据中客流量排名前三的站点（受突发事件影响较大，分别为大望路，四惠东，通州北苑）作为假设停运的重要地铁站点。根据Kolmogorov定理，Q值神经网络与元胞神经网络隐含层神经元数量均为2×输入层神经元数量+1。

4.1 模型优化结果对比

对本文模型进行数值模拟，为便于和无集群行为条件下的模拟结果进行对比，在相同的决策环境与参数条件下，将元胞神经网络模型替换为logit模型，方式：令出行者具有同质的参照点uti，j（τ）=minκ∈{R，m}bκ，ti，j（τ）+12·［maxκ∈{R，m}bκ，ti，j（τ）-minκ∈{R，m}bκ，ti，j（τ）］，站点i，j间出发时刻τ选择出行方式κ的流量表示为qκ，ti，j（τ）=qi，j（τ）·eθ·Uκ，ti，j（τ）/∑κ∈{R，m}eκ，ti，j（τ），再次进行数值模拟，得到最优接驳方案的强化学习过程。

图3给出了基于DQN的通勤走廊韧性恢复过程及性能变化，由图2、图3结合表3可知，元胞神经网络模型对应的接驳方案为：四惠、高碑店桥东；logit模型对应的接驳方案为：高碑店桥东、梆子井。元胞神经网络模型对应于较低的平均行程时间与等待时间之和，出行者获取了更高的前景效用，在集群行为的作用下，地面公交的平均断面流量高于logit模型，通勤走廊的高峰时段最大客流量高于logit模型（见图3c、d，出行方式坐标轴的“1”表示既有公交线，“2”表示机动公交线，“3”表示发生站点停运的地铁），最终经站点距离加权后，元胞神经网络模型对应最优接驳方案产生的韧性恢复效果劣于logit模型，可见，logit模型中出行者的参照点具有同质性，更加有利于实现整体理性，而集群行为进化以个体通过交互寻求自身效用最大化为动力，出行者个体对效用信息的感知和决策的发生具有并行性，大量个体会同时做出有利于自身的决策（符合现实中信息传播特点），从而对通勤走廊的韧性恢复产生了负面影响。进一步，相对于仅重复增加既有地面公交线路运力（经停各站而不对接驳方案进行优化）与直接对停运站点增加接驳，DQN方法输出的接驳方案使通勤走廊韧性得到了更大的提升。

4.2 集群行为与通勤走廊性能分析

调节出行者集群的学习强度与风险态度参数，考察通勤走廊的韧性变化情况。图4给出了优化进程中出行者集群行为与通勤走廊各性能的模拟结果。由图4a、b可知，当出行者群体的出发时间敏感度较低时，能够实现错峰出行，不同出行方式的效用差异较小，集群学习强度对平均行程时间并无显著影响，而当出发时间的敏感程度较高（对“早到”和“迟到”更加敏感）时，地铁分流大量客流，效用差异增大，集群学习进化降低了通勤走廊平均行程时间与地面公交断面流量。由图4a、c可知，当出发时间的敏感程度较高时，集群学习进化强度的增加虽然能够降低平均行程时间，使通勤走廊韧性得到提升，但由于出行者个体对效用信息的感知和决策的发生具有并行性，因此其对通勤走廊韧性的提升幅度有限。因此，在交通管理实践中，在对机动公交接驳方案进行优化的基础上，还应在降低出行者群体出发时间敏感性时同步增加准确出行信息的扩散程度。由图4d可知，相同的群体风险态度下，集群学习进化强度的增加使出行者获得了更高的效用，出行者群体的前景效用与风险态度之间呈现“倒S型”曲线，符合参照点依赖现象［18］，验证了元胞神经网络模型刻画累积前景效用的有效性。

5 结论

本文引入深度强化学习算法与元胞神经网络构建通勤走廊韧性恢复的双层规划模型，研究结果表明：重要地铁站点停运时，相对于仅重复增加既有地面公交线路运力或直接对停运站点增加接驳的做法，基于DQN方法的接驳方案优化使通勤走廊韧性得到更大提升;在韧性恢复优化进程中，集群信息交互行为虽然提升了出行者个体的效用值，但会对通勤走廊的韧性恢复产生负面影响，具體表现为：在集群行为作用下，地面公交的平均断面流量显著增加，通勤走廊的高峰时段最大客流量显著增加，韧性值降低;交通管理实践中，为使通勤走廊韧性得到最大限度恢复，在接驳方案优化的基础上，还应在降低出行者群体出发时间敏感性时同步增加准确出行信息的扩散程度。

参考文献：

［1］MURRAY T， PAMELA. A Comparison of transportation network resilience under simulated system optimum and user equilibrium conditions［C］// Proceedings of the Winter Simulation Conference WSC 2006. California， USA： Monterey， 2006： 1398－1405.

［2］张洁斐，任刚，马景峰，等. 基于韧性评估的地铁网络修复时序决策方法［J］.交通运输系统工程与信息，2020，20（4）：14－20.

ZHANG J F， Ren G， MA J F， et al. Decision-making method of repair sequence for metro network based on resilience evaluation ［J］. Journal of Transportation Systems Engineering and Information Technology， 2020，20（4）：14－20.

［3］谢永顺，王成金，韩增林，等. 哈大城市带网络结构韧性演化研究［J］. 地理科学进展，2020，39（10）：1619－1631.

XIE Y S， WANG C J， HAN Z L， et al. Structural resilience evolution of multiple urban networks in the Harbin-Dalian urban belt［J］. Progress in Geography， 2020， 39（10）： 1619－1631.

［4］HUANG D， GU Y， WANG S， et al. A two-phase optimization model for the demand-responsive customized bus network design［J］. Transportation Research Part C Emerging Technologies， 2020， 111：1－21.

［5］吕彪，管心怡，高自强.地铁网络服务韧性评估与最优恢复策略［J］.交通运输系统工程与信息，2021，21（5）：198－205，221.

LV B， GUAN X Y， GAO Z Q. Evaluation and optimal recovery strategy of metro network service resilience ［J］. Journal of Transportation Systems Engineering and Information Technology， 2021，21（5）：198－205，221.

［6］周日彪，庞明宝，王雄杰.基于K-shell的特大城市公交换乘优惠与线网规划协同优化［J］.公路交通科技，2021，38（6）：141－148.

ZHOU R B， PANG M B， WANG X J. Coordination optimization of transfer pricing discount and network planning for public transport of megalopolis based on K-shell ［J］. Journal of Highway and Transportation Research and Development， 2021，38（6）：141－148.

［7］KROESEN M. CHORUS C. A new perspective on the role of attitudes in explaining travel behavior： a psychological network model ［J］. Transportation Research Part A： Policy and Practice. 2020（133）：82－94.

［8］周城溪，肖玲玲. 考虑家庭成员的早高峰出行行为分析［J］.系统工程理论与实践，2020，40（12）：3220－3229.

ZHOU C X， XIAO L L. The analysis of travel behavior during morning rush hour considering household travels ［J］. Systems Engineering-Theory & Practice， 2020，40（12）：3220－3229.

［9］袁韻，徐戈，陈晓红，等. 城市交通拥堵与空气污染的交互影响机制研究－基于滴滴出行的大数据分析［J］. 管理科学学报，2020，23（2）：54－73.

YUAN Y， XU G， CHEN X H， et al. Study on the interactive mechanism of urban traffic congestion and air pollution： a big data analysis based on Di Di Chuxing ［J］. Journal of Management Science in China， 2020，23（2）：54－73.

［10］ ZHU Z， MARDAN A， ZHU S J， et al. Capturing the interaction between travel time reliability and route choice behavior based on the generalized Bayesian traffic model［J］. Transportation Research Part B： Methodological，2021（143）： 48－64.

［11］ WANG Y， WANG Y， CHOUDHURY C. Modelling heterogeneity in behavioral response to peak avoidance policy utilizing naturalistic data of Beijing subway travelers［J］. Transportation Research Part F： Traffic Psychology and Behaviour， 2020，73：92－106.

［12］蒋阳升，刘纹滔，姚志洪.基于元胞自动机的轨道交通突发客流拥堵消散演化机理研究［J］.交通运输系统工程与信息，2020，20（5）：121－127.

JIANG Y S， LIU W T， YAO Z H.Evolution mechanism of congestion and dissipation of sudden passenger flow in urban rail transit based on Cellular Automata ［J］. Transportation Systems Engineering and Information Technology， 2020，20（5）：121－127.

［13］ KOH S， ZHOU B， FANG H， et al. Real time deep reinforcement learning based vehicle navigation［J］. Applied Soft Computing， 2020（96）： 106694.

［14］贾飞凡，蒋熙，李海鹰，等. 基于强化学习的城轨信息发布策略研究［J］. 交通运输系统工程与信息， 2020， 20（5）：72－78.

JIA FF， JIANG X， LI H Y， et al. Information release strategy of urban rail transit based on reinforcement learning ［J］. Journal of Transportation Systems Engineering and Information Technology， 2020， 20（5）：72－78.

［15］姚恩建，张茜，张锐.公共交通票价对通勤走廊出行结构的影响［J］.交通运输工程学报，2017，17（6）：104－114.

YAO E J， ZHANG Q， ZHANG R. Impact of public transport fare on travel mode structure of commuting corridor ［J］. Journal of Traffic and Transportation Engineering， 2017，17（6）：104－114.

［16］ TVERSKY A， KAHNEMAN D. Advances in prospect theory： cumulative representation of uncertainty ［J］. Journal of Risk and Uncertainty. 1992， 5（4）： 297－323.

［17］ PRELEC D. The probability weighting function ［J］. Econometrica， 1998， 66（3）： 497－527.

［18］ LI X Y， LI X M， YANG L R， et al. Dynamic route and departure time choice model based on self-adaptive reference point and reinforcement learning［J］.Physica A： Statistical Mechanics and Its Applications， 2018， 502： 77－92.

（责任编辑李进）

收稿日期： 20220510；修回日期： 20220617

基金项目：北京市社会科学基金（21GLC046）

第一作者：李雪岩（1987），男，内蒙古呼和浩特人，博士，讲师，主要研究方向为复杂系统建模。

通信作者：祝歆（1977），男，贵州贵阳人，博士，教授，主要研究方向为智慧城市关键技术。