基于聚类客流特征分析
——以京沪高铁为例

2024-04-15 09:49李辉玉
建材与装饰 2024年11期
关键词:发送量站台客流

李辉玉

(西南交通大学,四川成都 610031)

0 引言

到2022 年底,京沪高铁累计开行列车近12 万列,日均发送旅客3.07 万人次。然而,其他运输方式也在积极调整营销策略,以应对市场竞争。当运输距离少于500km 时,公路运输是一个主要的竞争者;而当运输距离超过1000km 时,民航则成为主要的竞争对手[1]。这给京沪高铁的运营管理部门带来了新的挑战。为了在激烈的市场竞争中获得更大的市场份额,京沪高铁需要深入研究市场需求,优化运输资源配置,提高运输效率并降低成本。因此,对沿线客流特征的分析和研究变得尤为重要,能为客运决策的制定提供数据支撑和理论参考。

1 概述

1.1 京沪高速线路

京沪高铁沿线地区不仅是我国中西部地区经济发展的龙头,也是国际经济竞争的前沿。京沪高铁全长1318km,经过23 个城市,设有24 个车站,途经部分城市经济规模和人口规模都非常庞大。北京的人口规模超过了2100 万人,经济规模超过了30000 亿元;天津的人口规模超过了1500 万人,经济规模超过了16000 亿元;上海的人口规模和经济规模也都超过了2400 万人和32000 亿元。同时,这些城市也是我国旅游业的重要目的地之一,吸引着大量的游客和商务人士,为京沪高铁提供了丰富的客流资源。

1.2 客流特征

自从2020 年开始,受新冠病毒感染影响,铁路客流量受到较大冲击。目前高铁客运仍不稳定,因此本文以2019 年京沪线各站点发客数据为研究对象,更具通识性。

其中北京南2019 年发送量超3000 万人次。而小站如定远、丹阳北等的发送量不足50 万人次。可见京沪线车站发送量差异大。为研究客流规律,选取大站进行深入分析,不同大站的客流发送有显著差异。北京南站在2 月和11 月有明显下降,7—9 月较高。南京南站波动小,趋势与北京南站相似。常州北站和定远站波动幅度小,但定远站在2 月发送量确有所增加。

综上所述,不同车站间客流差异大,需深入考虑车站类型和实际情况。对京沪高铁车站的分类研究有助于分析客流空间分布差异,并为其他线路的车站类型划分和客流规律分析提供基础。

2 模型构建

2.1 符号定义

符号定义如表1 所示。

表1 符号定义

2.2 车站客流特征

在车站客流特征的研究中,时间序列数据的处理至关重要。为了更深入地了解数据的内在机制,通常需要提取关键特征,如均值、方差等,以降低数据维度[2-3]。这些特征能够准确描述时间序列的整体趋势和发展方向。

(1)均值。衡量数据集中趋势的重要指标,提供了数据的核心信息。

从均值推导可得出:上海虹桥、北京南等车站均值较大,这些车站的旅客发送量总量较大;均值较小的车站有定远、丹阳北,这些车站的旅客发送量总量较小。

(2)标准差。标准差越小,说明数据点之间的差异越小,时间序列的波动幅度也越小,反之则越大。

从标准差推导可得出:上海虹桥、北京南、南京南、济南西等车站标准差较大,这些车站的旅客发送量时间序列波动幅度较大;丹阳北和定远等车站标准差较小,波动幅度也就较小。

(3)偏度。通过计算时间序列的偏度,可以了解该时间序列分布的对称性,进一步分析其特性。

从偏度推导可得出:2019 年京沪线旅客发送量时间序列的偏度变化。从偏度的角度来看,偏度较大的车站有廊坊、沧州西等车站;偏度较小的车站有北京南。

(4)峰度。衡量数据分布尖锐程度的参数,用于描述时间序列中频率曲线的形态。

从峰度推导可得出:定远、丹阳北,这些车站的总体数据分布与正态分布相比更加陡峭,呈现出尖顶峰的形态;沧州西等车站更加平坦,呈现出平顶峰的形态。

(5)Hurst 指数。衡量时间序列数据的长期依赖性,决定趋势的延续性。

从Hurst 指数推导可得出:曲阜东、北京南、丹阳北Hurst 指数较大,这些车站的时间序列持续性较强;Hurst指数较小的车站有宿州东,该车站的时间序列持续性较弱,未来数据点更可能出现大幅度波动或趋势反转。

2.3 车站所在的区位属性

高铁车站重在长途运输,区位因素次要。但城市规模、经济和人文影响客流。城市等级、站台规模体现城市特点[4-5]。

北京南、济南西、天津西、南京南、徐州东和上海虹桥等车站的站台规模较大,旅客发送量也相应较高。在京沪线中,北京南、天津南、济南西、天津西、徐州东、南京南、常州北、无锡东、苏州北和上海虹桥等车站位于较高城市等级的城市。这些车站的旅客发送量较高。

综上所述,为了更好分析京沪客流特征。文章在构建车站分类模型时,选择均值、峰度、偏度、标准差、Hurst 指数、站台规模和城市等级7 个关键指标。这些指标全面、可量化,并易于操作。它们直观反映车站特性和差异性,提高分类准确性。根据决策需求可调整和优化这些指标,为车站运营提供参考。

2.4 聚类变量标准化

当聚类变量量级差异大时,标准化处理尤为重要。本文使用Z-score 标准化将所有变量转为同一量级,确保所有变量在聚类中发挥同等作用。其标准化处理公式如下:

3 聚类处理

3.1 聚类数值标准化

3.1.1 客流特征标准化

客流特征经过Z-score 标准化处理以后,可得到客流特征数值,如表2 所示。

表2 标准化后车站客流特征数据

3.1.2 站台规模和城市等级标准化

将站台规模按到发线取值进行处理,车站所在城市等级则按照城市所属等级对应数值(7~1)从大到小取值进行处理。通过Z-score 标准化后的车站所在地区位属性数值如表3 所示。

表3 车站所在地区位属性数据

3.2 聚类结果分析

结合前小节Z-score 标准化后的数值经过Python处理分析,可将京沪沿线车站聚为如下4 类。

第1 类:北京南、上海虹桥;这两座车站都是特大型铁路枢纽,连接了多个方向的高铁线路。它们在地理位置上靠近大都市,因此吸引了大量旅客。

第2 类:天津西、济南西、徐州东、南京南;这些车站都是连接京沪高铁的重要节点,其中天津西和济南西是华北地区的重要枢纽,徐州东和南京南则是连接华东和中南地区的重要站点。

第3 类:常州北、苏州北、无锡东、天津南、曲阜东、蚌埠南、德州东、昆山南、廊坊、沧州西、滁州、镇江南、宿州东、枣庄、泰安和滕州东;这一类车站覆盖了多个城市和地区,其中部分车站如常州北、苏州北等是当地的重要枢纽,而其他车站则起到了连接周边城市的作用。

第4 类:定远、丹阳北;这两座车站较小,客流量会受到一定限制。

通过进一步优化可得到客流特征时间序列指标,如表4 所示。通过对比各类车站的指标值,可以发现不同类型车站之间的差异和特点,具体如下。

表4 时间序列指标

第1 类车站具有高均值旅客发送量,显示出较大的运输能力。其时间序列波动大,可能受季节性因素影响。站台规模大,适合大客流。所在城市等级高,交通需求和运输需求大。

第2 类车站发送量均值较高,具有一定运输能力。波动幅度大,但数据相对对称。站台规模大,城市等级高,有一定交通需求。

第3 类车站发送量均值适中,波动幅度适中,数据分布正常。所在城市经济发展和交通需求中等。

第4 类车站发送量均值最低,运输能力弱。数据偏斜,有尖锐数据点。站台规模小,可能无法满足大客流需求。

4 结语

本文对京沪线各站点的客流特征进行了深入研究,发现各车站旅客发送量存在显著差异。采用聚类分析对车站进行分类,并基于关键属性指标进行定量分析。结果显示,车站可分为四类,每类车站客流特征不同。本文还分析了站台规模和城市等级等车站特点。研究结果对乘客和运输企业具有参考价值,有助于优化资源配置和提高运输效率。

猜你喜欢
发送量站台客流
客流增多
寻找93/4站台
为黑恶势力站台撑腰的县委常委
云南:铁路客流持续回暖 单日旅客发送量连续超20万
人生的站台
八号站台的那只狗
春运来了
春运40天发送量将达29.1亿人次
基于自学习补偿的室内定位及在客流分析中的应用
人工免疫算法在电梯客流时段划分的应用