基于聚类客流特征分析
——以京沪高铁为例

2024-04-15 09:49李辉玉

建材与装饰 2024年11期

李辉玉

（西南交通大学，四川成都 610031）

0 引言

到2022 年底，京沪高铁累计开行列车近12 万列，日均发送旅客3.07 万人次。然而，其他运输方式也在积极调整营销策略，以应对市场竞争。当运输距离少于500km 时，公路运输是一个主要的竞争者；而当运输距离超过1000km 时，民航则成为主要的竞争对手[1]。这给京沪高铁的运营管理部门带来了新的挑战。为了在激烈的市场竞争中获得更大的市场份额，京沪高铁需要深入研究市场需求，优化运输资源配置，提高运输效率并降低成本。因此，对沿线客流特征的分析和研究变得尤为重要，能为客运决策的制定提供数据支撑和理论参考。

1 概述

1.1 京沪高速线路

京沪高铁沿线地区不仅是我国中西部地区经济发展的龙头，也是国际经济竞争的前沿。京沪高铁全长1318km，经过23 个城市，设有24 个车站，途经部分城市经济规模和人口规模都非常庞大。北京的人口规模超过了2100 万人，经济规模超过了30000 亿元；天津的人口规模超过了1500 万人，经济规模超过了16000 亿元；上海的人口规模和经济规模也都超过了2400 万人和32000 亿元。同时，这些城市也是我国旅游业的重要目的地之一，吸引着大量的游客和商务人士，为京沪高铁提供了丰富的客流资源。

1.2 客流特征

自从2020 年开始，受新冠病毒感染影响，铁路客流量受到较大冲击。目前高铁客运仍不稳定，因此本文以2019 年京沪线各站点发客数据为研究对象，更具通识性。

其中北京南2019 年发送量超3000 万人次。而小站如定远、丹阳北等的发送量不足50 万人次。可见京沪线车站发送量差异大。为研究客流规律，选取大站进行深入分析，不同大站的客流发送有显著差异。北京南站在2 月和11 月有明显下降，7—9 月较高。南京南站波动小，趋势与北京南站相似。常州北站和定远站波动幅度小，但定远站在2 月发送量确有所增加。

综上所述，不同车站间客流差异大，需深入考虑车站类型和实际情况。对京沪高铁车站的分类研究有助于分析客流空间分布差异，并为其他线路的车站类型划分和客流规律分析提供基础。

2 模型构建

2.1 符号定义

符号定义如表1 所示。

表1 符号定义

2.2 车站客流特征

在车站客流特征的研究中，时间序列数据的处理至关重要。为了更深入地了解数据的内在机制，通常需要提取关键特征，如均值、方差等，以降低数据维度[2-3]。这些特征能够准确描述时间序列的整体趋势和发展方向。

（1）均值。衡量数据集中趋势的重要指标，提供了数据的核心信息。

从均值推导可得出：上海虹桥、北京南等车站均值较大，这些车站的旅客发送量总量较大；均值较小的车站有定远、丹阳北，这些车站的旅客发送量总量较小。

（2）标准差。标准差越小，说明数据点之间的差异越小，时间序列的波动幅度也越小，反之则越大。

从标准差推导可得出：上海虹桥、北京南、南京南、济南西等车站标准差较大，这些车站的旅客发送量时间序列波动幅度较大；丹阳北和定远等车站标准差较小，波动幅度也就较小。

（3）偏度。通过计算时间序列的偏度，可以了解该时间序列分布的对称性，进一步分析其特性。

从偏度推导可得出：2019 年京沪线旅客发送量时间序列的偏度变化。从偏度的角度来看，偏度较大的车站有廊坊、沧州西等车站；偏度较小的车站有北京南。

（4）峰度。衡量数据分布尖锐程度的参数，用于描述时间序列中频率曲线的形态。

从峰度推导可得出：定远、丹阳北，这些车站的总体数据分布与正态分布相比更加陡峭，呈现出尖顶峰的形态；沧州西等车站更加平坦，呈现出平顶峰的形态。

（5）Hurst 指数。衡量时间序列数据的长期依赖性，决定趋势的延续性。

从Hurst 指数推导可得出：曲阜东、北京南、丹阳北Hurst 指数较大，这些车站的时间序列持续性较强；Hurst指数较小的车站有宿州东，该车站的时间序列持续性较弱，未来数据点更可能出现大幅度波动或趋势反转。

2.3 车站所在的区位属性

高铁车站重在长途运输，区位因素次要。但城市规模、经济和人文影响客流。城市等级、站台规模体现城市特点[4-5]。

北京南、济南西、天津西、南京南、徐州东和上海虹桥等车站的站台规模较大，旅客发送量也相应较高。在京沪线中，北京南、天津南、济南西、天津西、徐州东、南京南、常州北、无锡东、苏州北和上海虹桥等车站位于较高城市等级的城市。这些车站的旅客发送量较高。

综上所述，为了更好分析京沪客流特征。文章在构建车站分类模型时，选择均值、峰度、偏度、标准差、Hurst 指数、站台规模和城市等级7 个关键指标。这些指标全面、可量化，并易于操作。它们直观反映车站特性和差异性，提高分类准确性。根据决策需求可调整和优化这些指标，为车站运营提供参考。

2.4 聚类变量标准化

当聚类变量量级差异大时，标准化处理尤为重要。本文使用Z-score 标准化将所有变量转为同一量级，确保所有变量在聚类中发挥同等作用。其标准化处理公式如下：

3 聚类处理

3.1 聚类数值标准化

3.1.1 客流特征标准化

客流特征经过Z-score 标准化处理以后，可得到客流特征数值，如表2 所示。

表2 标准化后车站客流特征数据

3.1.2 站台规模和城市等级标准化

将站台规模按到发线取值进行处理，车站所在城市等级则按照城市所属等级对应数值（7～1）从大到小取值进行处理。通过Z-score 标准化后的车站所在地区位属性数值如表3 所示。

表3 车站所在地区位属性数据

3.2 聚类结果分析

结合前小节Z-score 标准化后的数值经过Python处理分析，可将京沪沿线车站聚为如下4 类。

第1 类：北京南、上海虹桥；这两座车站都是特大型铁路枢纽，连接了多个方向的高铁线路。它们在地理位置上靠近大都市，因此吸引了大量旅客。

第2 类：天津西、济南西、徐州东、南京南；这些车站都是连接京沪高铁的重要节点，其中天津西和济南西是华北地区的重要枢纽，徐州东和南京南则是连接华东和中南地区的重要站点。

第3 类：常州北、苏州北、无锡东、天津南、曲阜东、蚌埠南、德州东、昆山南、廊坊、沧州西、滁州、镇江南、宿州东、枣庄、泰安和滕州东；这一类车站覆盖了多个城市和地区，其中部分车站如常州北、苏州北等是当地的重要枢纽，而其他车站则起到了连接周边城市的作用。

第4 类：定远、丹阳北；这两座车站较小，客流量会受到一定限制。

通过进一步优化可得到客流特征时间序列指标，如表4 所示。通过对比各类车站的指标值，可以发现不同类型车站之间的差异和特点，具体如下。

表4 时间序列指标

第1 类车站具有高均值旅客发送量，显示出较大的运输能力。其时间序列波动大，可能受季节性因素影响。站台规模大，适合大客流。所在城市等级高，交通需求和运输需求大。

第2 类车站发送量均值较高，具有一定运输能力。波动幅度大，但数据相对对称。站台规模大，城市等级高，有一定交通需求。

第3 类车站发送量均值适中，波动幅度适中，数据分布正常。所在城市经济发展和交通需求中等。

第4 类车站发送量均值最低，运输能力弱。数据偏斜，有尖锐数据点。站台规模小，可能无法满足大客流需求。

4 结语

本文对京沪线各站点的客流特征进行了深入研究，发现各车站旅客发送量存在显著差异。采用聚类分析对车站进行分类，并基于关键属性指标进行定量分析。结果显示，车站可分为四类，每类车站客流特征不同。本文还分析了站台规模和城市等级等车站特点。研究结果对乘客和运输企业具有参考价值，有助于优化资源配置和提高运输效率。

基于聚类客流特征分析——以京沪高铁为例