公交车到站时间预测模型研究

2020-03-26 15:13吴少健江秋枫卢洁楚李子晗朱润峰
机电工程技术 2020年2期
关键词:数据量特征向量公交车

吴少健,江秋枫,卢洁楚,李子晗,朱润峰

(广东工业大学机电工程学院,广州 510006)

0 引言

众所周知,公共交通能提高交通效率,并且具有低碳、运量大、承载率高的优点。实现智能公交是发展智能交通的重要内容。合理调度公交车以有效治理交通拥堵,其中需要能精确预测公交车到站时间的方法。

公交车在行驶过程中受到诸多因素的影响,到达指定站点的时间难以准确预测。一些模型的提出,可以探索出公交车运行的机理,从而准确预测。

从文献[1]可以看到公交车到站预测主要分为三类:第一类是基于公交车GPS数据的研究;第二类是基于公交IC卡数据的研究[2-3];第三类是将2种数据融合综合研究。其所用建模大同小异,常用的有时间序列模型、卡尔曼滤波模型、人工神经网络模型[4-5]和支持向量机模型[6]等。

本研究结合社会车对公交车的影响,运用决策树和随机森林等6个模型预测公交到站时间,根据公交到站时间预测的特征和6个预测模型的特征等提出了可拓预测模型。测试结果可以看出,该模型有效并可接受。

1 大数据处理及挖掘分析

1.1 数据来源

数据来源于广州市2019年3月1日公交进出站数据和出租车GPS数据。

公交车GPS终端系统在依次报站的同时,对公交车进出站信息进行记录。每一条记录的内容包括了很多属性,如表1所示。

表1 公交车数据属性

出租车GPS数据记录了出租车在广州道路上行驶的情况,数据由出租车上的GPS发出,并在终端进行记录。记录周期为15 s左右1次。每一条记录包括很多属性,具体内容如表2所示。

1.2 数据预处理

公交路线140路经过广州大道、东风东路、黄埔大道等主干道,途经珠江新城等客流车流大的商业密集区,有较高的研究价值。考虑140路公交路线经过的主要干道以及两站点之间的距离等情况,最终选择“石牌村站—冼村站—人民日报广东分社站”3站之间的路段作为研究对象。

表2 公交车数据属性

1.2.1 公交车进出站数据的预处理

(1)将数据导入数据库,进行筛选。在SQL Server中,以ROUNT_NAME为140路为限制条件进行筛选,初步得到140路公交车进出站的所有数据。

(2)将筛选后的数据进行排序以及数据剔除,包括缺失值和重复值。进一步探究数据,发现其中存在重复记录到站的现象。在数据量较多的条件下,对此小部分数据进行数据剔除处理。

(3)将剔除后的数据进行相关计算,便可得到输入变量和输出值。

1.2.2 公交车进出站数据的预处理

(1)将数据导入数据库,进行筛选。

(2)将站点GPS之间的路段进行点集化处理。

(3)进行路网匹配。由于出租车GPS数据本身存在漂移的现象,为了尽可能地匹配出足够的数据量,需对不同的匹配距离(即出租车GPS点与点聚化的GPS点之间距离)做一个探究,可得到筛选数据量与匹配距离的关系,选择匹配距离为0.000 4(*111 000 m)作为约束条件进行筛选。

(4)对数据进行相关计算,得到输入变量。

1.3 数据挖掘分析

公交车在实际运行中会受到各种随机因素的影响,例如:时段、节假日、交通拥挤程度、交通意外等。要较准确预测公交到站时间,需要对不同的影响因素进行数据采集和挖掘分析。可以作为特征向量的有以下3个:

(1)在“石牌村站”的停靠时间由公交进出数据选取站台停留时间作为输入样本的变量,记为v1。

(2)在“石牌村站”与“冼村站”之间的行驶时间由公交进出数据选取两站的行驶时间作为输入样本的变量,记为v2。

(3)社会车速度由出租车GPS数据选取在“石牌村站”与“冼村站”之间的行驶时间内,道路上的出租车速度的平均值作为输入样本的变量,记为v3。

目标值的选取由公交进出站数据得到,即“冼村站”到下一站“人民日报广东分社站”之间的行驶时间作为输出样本的因变量,记为t。

3个特征向量与目标值进行皮尔逊相关性分析,如图1所示,发现目标值t与v1呈现弱相关,与v2呈中等强度相关,与v3呈负的强相关。这说明特征向量的选取是合理的。

图1 各特征向量皮尔逊相关性分析情况

2 可拓预测的建立与应用

2.1 可拓预测的框架

(1)目标的确定

公交车到站时间预测,记为t0,可用物元形式[7]表示为:

(2)目标条件分析

公交车到站时间预测的依据记为L0,可用物元形式表示为:

(3)建立问题的可拓模型

根据所确定的目标和目标条件,可以发现问题的矛盾是复杂的自然环境、道路情况和现有的设施设备难以用已有的预测模型进行准确、稳健、及时地预测。为了解决此矛盾问题,进行目标与条件的拓展与变换。

(4)已有预测模型的共轭分析

公交车到站时间预测的硬部是天气情况、道路情况、红绿灯情况等部分,这些部分之间的联系属于软部。硬部可以采取相关技术获得数据,用数据来表征。软部通过数据间的关系呈现出来。模型为描述刻画数据间关系和规律的载体。所运用的6个模型呈现出数据在不同情况下的规律。

(5)对不相容问题进行拓展分析

根据模型的特点,对条件L0进行发散分析,从一物多征、一征多值、一值多征等角度描述公交车到站时间预测的特征,预测模型的特征等。对目标t0进行蕴含分析,借助已有预测模型和相关数据以实现目标。

多元线性回归模型适用于规律性强的情况;ARIMA模型适用于短期的平稳时段;SVM模型适用于长期样本少的情况;BP神经网络模型适用于长期样本多的情况;Decision Tree和Random Forest模型适用范围广泛。预测模型很大程度上解决了目标条件的不稳定性和不确定性,使得预测效果有效可靠。

(6)创意方案的生成

6种预测模型适用于不同的数据情况,在数据增删、扩缩、分解和组合后,匹配合适的模型后能生成多种创意方案。基于公交路线140路的研究,得到以下选择模型的依据:

(a)若数据量大,优先使用决策树;

(b)在平稳条件下,预测到较近的站,优先考虑时间序列模型;

(c)若数据量少,预测到较远的站,优先考虑SVM模型;

(d)在硬件支持的条件下,优先考虑随机森林模型;

(e)若道路等情况平稳,采用均值法或多元线性回归模型。

(7)预测模型的最终选取

预测模型的选取依据主要看区分度和指标度。区分度体现在预测模型运用时的适用情况以及发生概率;在指标度选取了判定系数R-Squared,平均绝对误差MAE和均方根误差RMSE这3个指标为依据。

2.2 可拓预测的应用

(1)目标

预测公交车从“石牌村站”到“冼村站”后,从“冼村站”到“人民日报广东分社站”的时间。要求预测准确,保证误差可接受,实现概率高。即预测值与实际值不能差别太大,而且预测值发生的概率不能过低。

(2)条件

数据来源于广州市2019年2月16日至2019年2月22日公交进出站数据。根据这一周的数据量可以挖掘出特征向量在“石牌村站”的停靠时间,在“石牌村站”与“冼村站”之间的行驶时间。此外,已经使用6个模型进行2019年3月1日当天的预测,已初步了解6个模型的适用情况。

(3)建立可拓模型

原本只有一天的数据量,现在有了一周的数据量。6个预测模型分别单独用于预测,结果显示误差较大,没有发挥出模型自身的优势。因此,对数据和模型进行双向的选择,建立可拓建模。

(4)拓展与变换

由数据支持,可进行置换变换和扩缩变换,一天可以分为高峰期和非高峰期,一周可分为工作日和非工作日,因此增加“是否工作日”和“是否高峰期”这2个特征向量。运用6个预测模型于不同的场合,得到如表3所示的结果。

表3 各模型在不同场合下的适用情况

(5)创意方案生成

根据模型的表现挑选不同具体情况下的模型,从而进行组合。组合方式多种多样,这里给出一种方案,如表4所示。

表4 不同场合下的模型选取

将数据进行分组,代入相对应的模型进行预测,结果如下:

test r2_score:0.5463

mean_squared_error:0.508

mean_absolute_error:0.512

图2 各模型的R方情况

2.3 结果分析

可拓预测模型的优点为区分度高和指标度好。可拓预测充分考虑了数据的特征,从而企图挖掘出数据背后的规律。可拓预测是利用大数据进行可拓变换,研究公交车到站时间机理的过程。指标度选取了R方,RMSE和MAE这3个依据。如图2(图中字母为各模型英语单词的缩写,如MLR表示多元线性回归;EP表示可拓预测,下同)所示,可拓预测的R方并不高,但也不是最低,说明可拓预测拟合的效果一般。但图3和图4表现出,可拓预测的RMSE和MAE在所运用模型中是最低的,说明可拓预测的误差是最可接受的,准确度是偏高的。整体来说,可拓预测模型是有效的。

图3 各模型的RMSE情况

图4 各模型的MAE情况

可拓预测模型的缺点为操作难度高和可移植性低。处理数据时会遇到记录不完整、缺失或重复等问题,模型应用中需要寻找最优的参数;选取特征向量和目标值、多次运用模型结果取平均值等工作繁杂且量多。可拓预测模型还不是一个成熟的模型,目前仅仅解决了广州市公交路线140路公交车到站时间预测问题,如果更移到其他情境,需得重新审视一番,因为暂时还没有形成一个统一、快速、标准和规范的系统来专门解决相关问题。因此,模型运用时有盲目性,无可避免地要去试错。

3 结束语

公交车到站时间的机理以停靠时间、行驶时间和社会车速度等变量来审视,在决策树、随机森林等6个模型的基础上提出了可拓预测模型。结果表明,可拓预测模型与单一模型相比是可接受的和有效的。可拓预测模型是基于数据规律和模型特点的复合模型,其准确度比单一模型高。在实际运用方面,可拓预测模型具有操作难度高和可移植性低的缺点,有待未来改进。

猜你喜欢
数据量特征向量公交车
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
你们认识吗
基于大数据量的初至层析成像算法优化
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
拒绝公交车上的打扰
一类特殊矩阵特征向量的求法
公交车上
公交车奇妙日