基于LSSVM的交通运行状态特征级数据融合研究*

2017-10-18 10:08向怀坤
深圳职业技术学院学报 2017年5期
关键词:浮动检测器向量

向怀坤,袁 媛,曾 松

(1. 深圳职业技术学院 汽车与交通学院,广东 深圳 518055;2. 深圳前海云创交通科技服务有限公司,广东 深圳518058)

基于LSSVM的交通运行状态特征级数据融合研究*

向怀坤1,袁 媛1,曾 松2

(1. 深圳职业技术学院 汽车与交通学院,广东 深圳 518055;2. 深圳前海云创交通科技服务有限公司,广东 深圳518058)

目前国内城市道路交通运行指数的计算数据普遍依赖单一的浮动车车速数据,为了进一步探讨多源交通传感器条件下如何有效提高用于指数计算数据的准确性和可靠性,本文以深圳市某快速路的地磁检测器和浮动车两种交通传感器作为实验对象,在基于云模型云相似度数据修复预处理基础上,提出一种基于最小二乘回归支持向量机(LSSVM)的地磁检测器和浮动车的多源数据融合方法.通过采集该路段的地磁车辆检测器、自动车牌识别系统和浮动车数据,以自动车牌识别系统的采集数据作为交通运行状态的真值,对地磁检测器数据和浮动车数据的融合结果进行校核.实验结果表明,与地磁检测器和浮动车的单源数据得到的特征参数相比,LSSVM 多源数据融合方法得到的交通运行特征参数更接近真实值.另外,本文还将该方法与传统的多传感器加权数据融合方法、BP神经网络融合方法进行了对比,结果表明LSSVM多源数据融合方法具有更好的数据融合精度和可靠性.

城市交通;数据融合;运行状态估计;最小二乘回归支持向量机;车牌照数据;浮动车数据;地磁检测器数据

城市道路交通运行指数是对城市路网交通总体运行状况进行定量评估的综合指数[1].目前,国内绝大多数城市的道路交通运行指数计算的数据来源是单一的浮动车平均车速数据[1-3].该数据由安装有定位和无线通信装置的车辆在行驶过程中采集自身速度和位置信息,并经由通信网络实时上传到城市交通管理中心后,通过浮动车数据处理软件实时处理后得到.

调查表明,目前国内一线城市的路况交通运行指数计算的浮动车数据大部分来源于出租车,而出租车在表征城市道路交通运行状态时,存在明显的数量不足和分布不均衡问题.以深圳市为例,目前上线运营的出租车约1.6万辆,而城市道路里程约 6900km,其出租车交通密度平均值为2.3辆/km.由此可见,仅仅依靠出租车数据来进行城市道路交通运行指数的建模计算,存在较大的误差,且可靠性较低.为此,有必要研究面向城市道路交通运行指数的多源交通数据融合方法,将城市道路上现有的多种道路交通传感器所采集的数据进行融合处理,进而提高道路交通运行指数计算结果的精度及可靠性.多源交通数据融合在交通运行状态估计方面的应用证明其为行之有效的方法.在主题方面有区间速度估计[4-7]、路段行程时间估计[8]等;在数据来源方面,有线圈数据和车联网检测数据相结合[9]、浮动车数据和微波检测器数据相结合等;在融合方法方面,有BP神经网络[10]、D-S证据理论[10]、支持向量机[11-14]等.

本文提出一种基于最小二乘回归支持向量机(Least Squares Support Vector Machine, LSSVM)的多源数据融合方法.以深圳市某快速路的地磁检测器和浮动车两种交通传感器采集的车速数据作为实验对象,在基于云模型云相似度数据清洗预处理基础上[15],利用所提方法对其进行数据融合,以车牌识别系统采集的平均车速作为数据融合的真值对实验结果进行评价.另外,本文还将所提LSSVM多源数据融合法与传统的多传感器加权数据融合方法、BP神经网络融合方法进行了对比,对方法的精度和可靠性进行了验证.

1 多源交通数据融合框架设计

面向道路交通运行指数的数据融合属于特征级数据融合.交通数据特征级融合是将来自各传感器的原始记录信息进行交通运行状态特征提取,对特征信息进行综合分析和处理.交通流特征一般采用区间平均车速、区间行程车速、道路综合阻抗、道路服务水平来表征.数据融合的关键是建立一套规则和处理方法,能够自动识别输入的多源交通传感器数据.

结合数据采集现状,特征级数据融合重点针对区间平均车速进行融合,通过采集试点路段地磁断面的点车速,获取试点路段的区间平均车速;并将其与浮动车区间车速进行融合,从而获取更为准确的区间平均车速.多源特征级交通数据融合方法可分为以下4个步骤:

(1)确定融合数据:重点对既有的多源传感器进行分析,明确融合数据源;

(2)融合方法选取:依据数据情况,并结合道路交通条件选取使用的融合方法和模型;

(3)融合试点分析:结合传感器的布设情况和道路交通条件,选取适宜的试点路段,进行特征级数据融合实验分析;

(4)融合效果评估:制定实测方案并采集数据作为真值,用于评估数据融合效果.

对于任何一种特征级交通参数而言,如果具备2种及以上传感器数据,即可以进行基于多源传感器的数据融合,从而提高交通参数分析的质量和可靠性,基于多源交通数据的融合流程如图1所示.

图1 多源交通数据的融合流程框架

2 基于 LSSVM 的多源数据融合方法

2.1 支持向量机(SVM)的基本形式

支持向量机(SVM)的工作原理是,通过有限的样本输入输出集信息得到较高精度的训练模型,进而生成最大限度识别任意样本的普适模型,因而其所具有推广能力被广泛运用于数据预测和模式识别等领域.

实际应用中,较常使用的是非线性数据处理,其 SVM 模型可描述为:取一个映射关系将输入向量ix映射到新的特征空间中,将原始输入集输出集之间的复杂的、不确定的非线性关系:fxy→转换为在这个空间中具有简单的、确定性的线性关系.该 SVM 模型的映射函数形式取为:

2.2 基于最小二乘回归支持向量机的多源数据融合

最小二乘回归支持向量机(LSSVM)采用最小二乘系统作为损失函数,与 SVM 模型相比,其优势在于能够实现大尺度数据优选,简化运算算法,同时可有效地提高学习速度.基于LSSVM的多源数据融合模型构造过程如下:

1)数据准备.首先选定训练数据对支持向量机模型进行训练,通过学习找出多种传感器的探测数据与真实值之间的函数关系.设在某一时间段内,有n组来自m个检测器的数据每组来自第m个检测器的数据记为 xn∈Rm,将训练输入数据记为 X = { xi|i = 1 ,2,… ,N,xi∈R},表示每个检测器第i个数据的集合组成的向量,数据实测值为yi,训练输出数据 f (xi).

2)构造支持向量机,求解最优化问题.判决函数构造如下:

输入数据与目标值之间的决策函数关系为:

3)输入样本数据训练.当支持向量的错误率及训练时长满足要求时,到LSSVM的核函数和损失函数组合模式及其相关参数.支持向量错误率等于支持向量的个数与样本数的比值,该数据越小表明训练结果越好,同时训练时长越短,表明训练效率越高.

4)基于训练后的LSSVM模型,输入测试数据集,完成数据融合测试.基于LSSVM的多源特征级交通数据融合模型的计算过程如图2所示.

图2 基于LSSVM的多源交通数据融合模型

3 实例分析

为了验证本文的数据融合方法,本实例分析数据的选取主要考虑了2个因素:一是相同地点,要求多源交通传感器安装在大致相同的地点,使所采集的多源交通数据具有可比性;二是相同时间,要求多源交通传感器在相同的时间内采集车辆数据,确保数据融合对象在时间上的一致性.由于深圳市北环大道侨香村至新洲立交路段安装了符合要求的地磁车辆检测器和车牌识别系统,且这一路段的浮动车分布也基本稳定,故本文选取该路段2016年9月14日00:00:00-23:59:59共计24 h的车辆检测数据作为实验数据.其中,地磁检测器数据和浮动车数据为数据融合对象,车牌识别数据用于验证.在数据融合前,需要分别对地磁数据、浮动车数据和车牌识别数据进行预处理,确保数据融合前数据本身准确可靠.

3.1 数据预处理

数据预处理总体上包括故障数据辨识和故障数据修复两个步骤.故障数据辨识是指利用计算机程序对原始数据中存在的错误数据、丢失数据和较大误差的数据进行自动识别和定位.由于交通数据本身大部分都是时间序列数据,其数据分布和不同时段下的交通流分布特征有密切的相关性,据此可以自动辨识绝大多数故障数据.比如根据道路设计车速可以辨识那些突变车速值,或者根据某地点在某时段的年平均交通量分布结果对交通量检测数据的正确性进行判别;如果在正常的数据记录间隔内发现某一时段内无数据上传,则大体可以判定这时出现了数据丢失;当交通传感器由于电气性能下降导致采集的交通数据超出实际范围,不符合交通流分布规律,这种情况下需要对该数据进行深入分析以修复较大误差.故障数据修复是在故障数据辨识的基础上,对定位后的故障数据进行剔除、平滑或重建的处理工作.对于单个时间片的数据丢失,拟采用指数平滑修复法,对于多个时间片数据丢失,拟研究采用相似度最近的历史数据修补法,对于相似度的判别,可以在具体实施中灵活考虑K均值聚类、云模型等,设计相应的求解算法.

考虑交通数据分布的不确定性特征,本文充分利用云模型在处理不确定性方面的优势对交通数据进行预处理.其总体思路是,利用云模型的逆向云发生器,对采集的交通数据转换成云数字特征(Ex,En,He),再基于云分布的云团之间的相似性和历史趋势进行对比,将满足相似性条件的数据与当前待修复的故障数据进行平滑或重建处理,从而实现故障数据的自动修复[15],限于篇幅下面直接给出该算法的处理流程图(如图 3所示).

3.2 数据融合性能评价指标

本文选用的对数据融合结果的误差评定指标有:

1)平均绝对百分比误差(mean absolute percentage error,MAPE),其计算公式为:

式中 f (xi)为数据融合值; yi为真值(即车牌识别数据);N为总数值.

2)标准差(Standard deviation error,简称SDE),其计算公式为:

图3 基于云模型的交通数据预处理流程

式中符号含义同式(7).

3)最小误差平方和(Least square error method,简称LSE),其计算公式为:

式中符号含义同式(7).

其中,SDE能够较好地反映误差分布的离散程度,从而在一定程度上表明数据的可靠性,MAPE反映了误差分布的大小且计算简便,LSE则反映了各类数据的波动大小,可用于数据融合结果与单一传感器数据质量的对比.

3.3 融合效果评价

利用所提模型对实例数据进行数据融合处理,并利用上述指标对融合后的结果进行评价.对比结果如表3所示,可以发现融合后的结果比单一来源的数据更接近真实值.

在早高峰期多源数据融合结果的 SDE为0.22,MAPE为0.01,LSE为0.03,数据融合结果的SDE、MAPE和LSE指标均好于单一数据来源的检测结果,可见融合效果较好,数据融合模型应用于该路段该时段的特征级融合是合适的.

将提出的基于LSSVM的数据融合方法与其他常用的方法进行对比,包括基于传感器性能指标权重的数据融合方法和基于BP神经网络的数据融合方法,对比汇总结果见表1.结果表明,基于传感器性能指标权重的数据融合方法相比于单一来源的传感器数据,在SDE、MAPE、LSE 3项评价指标方面均有所减小.但与另外2种数据驱动的数据融合方法相比,基于传感器性能指标权重的数据融合方法的融合能力最差,客观反映了基于主观经验的权重估计方法存在较大误差,难以达到数据融合的要求.基于BP神经网络的数据融合方法极大改进了融合效果,体现了数据驱动算法在数据融合中相比于权重估计方法的先进性.在算法结构方面,基于LSSVM的数据融合方法都优于BP神经网络.而且实验结果也充分证明了,所提方法进一步地减少了多源数据融合的误差,具有明显的精度和效率优势.比如,在SDE、MAPE、LSE 3个指标方面对数据进行对比,BP神经网络融合方法相对于基于传感器性能指标权重的数据融合方法分别减少了 42%、62%、45%,LSSVM 融合方法相对于 BP神经网络法分别减少了 93%、99%、72%.误差分析结果表明,所提方法的融合效果总体较为良好.

表1 单一检测器数据与融合结果的精度对比

4 结 论

由于单一交通传感器设备在日常使用过程中存在突发性故障等问题,导致单一来源的数据不准确.解决上述问题的最好方法是增加交通传感器设备,从而实现交通参数采集的冗余,增强数据的可靠性,但同时需要研究有效的多源异构交通传感器的数据融合问题.本文设计了多源交通数据的融合框架,提出一种基于LSSVM的多源交通数据融合方法.从数据融合方法的研究成果来看,基于传感器性能指标权重的多源数据融合法计算思路简单、明了,运算速度非常快,可以即时得到数据融合结果,但该方法需要不定期根据传感器的运行性能确定传感器性能指标;基于LSSVM的数据融合法和基于BP神经网络的数据融合法效果相对较为良好,其中,基于BP神经网络的数据融合方法不需要事先对传感器的精度和可靠性进行置信度评价,可以方便地进行网络设计与网络训练,但其数据融合精度受网络结构、训练样本等的影响.下一阶段有必要对数据采集方案进行优化,同时进一步完善数据融合模型.

[1] 王妍颖,黄宇.基于大数据下的北京交通拥堵评价指标分析[J].交通运输系统工程与信息,2016,16(4):231-240.

[2] 徐丽香,王云鹏,于海洋.基于局部敏感判别分析的路网状态特征提取模型研究[J].交通运输系统工程与信息,2016,16(3):95-100.

[3] 韦清波,何兆成,郑喜双,等.考虑多因素的城市道路交通拥堵指数预测研究[J].交通运输系统工程与信息,2017,17(1):74-81.

[4] Bachmann C, Abdulhai B, Roorda M J, et al. A comparative assessment of multi-sensor data fusion techniques for freeway traffic speed estimation using microsimulation modeling[J]. Transportation Research Part C Emerging Technologies, 2013,26(1):33-48.

[5] Zhang N, Xu J, Lin P Q, et al. An approach for real-time urban traffic state estimation by fusing multisource traffic data[C]// Intelligent Control and Automation. IEEE,2012:4077-4081.

[6] Kong Q J, Li Z, Chen Y, et al. An approach to urban traffic state estimation by fusing multisource information[J]. IEEE Transactions on Intelligent Transportation Systems, 2009,10(3):499-511.

[7] Cipriani E, Gori S, Mannini L. Traffic state estimation based on data fusion techniques[C]// International IEEE Conference on Intelligent Transportation Systems. IEEE, 2012:1477-1482.

[8] 胡小文,杨东援.基于数据融合的路段行程时间估计[J].交通信息与安全,2011,29(4):92-98.

[9] Li J, Bie Y, Gao J, et al. Traffic State Estimation Using Data Fusion with Fixed Loop Detector and Connected Vehicle Data[C]//World Conference on Transport Research. 2016.

[10] 李瑞敏,马玮.基于BP神经网络与D-S证据理论的路段平均速度融合方法[J].交通运输工程学报,2014(5):111-118.

[11] 麦晓冬.基于支持向量机的室内室外图像分类方法[J].广东轻工职业技术学院学报,2010(03):2-4.

[12] 徐华中,吴苏,刘念.基于多传感器数据融合技术的短时交通流检测[J].传感器与微系统,2009(2):104-105.

[13] 赵娜乐,于雷,耿彦斌,等.基于SVM的数据层多源ITS数据融合方法初探[J].交通运输系统工程与信息,2007,7(2):32-38.

[14] Shamshirband S, Petkovic D, Javidnia H, et al. Sensor Data Fusion by Support Vector Regression Methodology-A Comparative Study[J]. IEEE Sensors Journal, 2015,15(2):850-854.

[15] 万佳.基于云模型的路网交通拥堵状态判别算法研究[D].哈尔滨工业大学,2012:7-12.

Abstract: At present, domestic urban road traffic index calculation data generally rely on a single floating car data. In order to further explore the accuracy and reliability of the data used in the index calculation method,this paper takes the geomagnetic detector and floating vehicle of one expressway in Shenzhen as the experimental object. Based on the data preprocessing on the similarity of cloud model, a multi-source data fusion method based on Least Squares Support Vector Machine (LSSVM) for geomagnetic detectors and floats is proposed. By collecting the geomagnetic vehicle detectors, automatic license plate recognition system and floating car data, the results of the data fusion between the geomagnetic detector data and floating car data are verified by the traffic conditions true value collected and recognized by the automatic license plate recognition system. The experimental results show that the traffic characteristics gained by multi-source data fusion method based on LSSVM is closer to the real value. In addition, the method is compared with the traditional multi-sensor weighted data fusion method and BP neural network fusion method. The results show that the LSSVM multi-source data fusion method has better data fusion precision and reliability.

Key words: urban traffic; data fusion; traffic state estimation; least squares support vector machine(LSSVM); automatic vehicle license plate recognition data; probe data; geomagnetic detectors data

Research on Feature - level Data Fusion of Traffic Operation State Based on LSSVM

XIANG Huai-kun*1, YUAN Yuan1, ZENG Song2
(1. School of Automotive and Transportation, Shenzhen Polytechnic, Shenzhen, Guangdong 518055, China;2. Shenzhen Qianhai Cloud Innovation Traffic Technology Services Limited Co., Shenzhen, Guangdong 518000, China)

U268.6

A

1672-0318(2017)05-0042-06

10.13899/j.cnki.szptxb.2017.05.008

2017-06-14

*项目来源:教育部人文社科资助项目(16YJE630003)

向怀坤(1971-),男,四川人,博士,副教授,主要研究方向:智能交通管理与控制.

猜你喜欢
浮动检测器向量
电连接器柔性浮动工装在机械寿命中的运用
向量的分解
聚焦“向量与三角”创新题
论资本账户有限开放与人民币汇率浮动管理
一种用于剪板机送料的液压浮动夹钳
带有浮动机构的曲轴孔镗刀应用研究
车道微波车辆检测器的应用
向量垂直在解析几何中的应用
一种雾霾检测器的研究与设计
向量五种“变身” 玩转圆锥曲线