基于K均值聚类的天津市环卫车行驶工况研究

2024-01-03 10:52田元武杨志文王计广
河北工业大学学报 2023年6期
关键词:特征参数天津市聚类

田元武,杨志文,王计广,黎 苏

(1.河北工业大学能源与环境工程学院,天津 300401;2.中国汽车技术研究中心,天津 300300)

0 引言

汽车行驶工况反映了车辆运行过程中的运动状态与行驶情况,由一组速度-时间曲线所表示。工况曲线广泛地应用在车辆动力装置匹配、能量管理策略、排放特性研究等方面,是整车开发与检测的重要因素。随着我国城市化水平不断提高,城市专用作业车辆的保有量也迎来了大幅增长,许多学者对专用作业车辆的行驶工况展开了研究。赵承辉等[1]以西安市某公交为例,以聚类分析法构建了西安市的典型公交车工况;王志强等[2]以太原市某CNG公交为研究对象,构建了太原市公交工况,并以此为基础对CNG公交车排放特性进行了研究。苗强等[3]基于聚类和马尔可夫链法构建了济南市公交的典型工况曲线,并提出了相应优化方案。

上述研究大多聚焦在公交车上,而对城市内工作的环卫车的关注明显不足。据统计,截至2016年底我国的环卫车保有量为16.8 万辆,经过4 年的发展,在2020 年底达到了35.4 万辆,平均每年增长约4.65 万辆。Clark 等[4-6]开发的纽约环卫车行驶工况(New York garbage truck cycle,NYGTC)工况被用于美国纽约市环卫车的开发测试,但目前绝大多数国家的测试标准中并未将环卫车单独列出。我国现行的测试标准中采用以世界重型商用车瞬态循环(World Transient Vehicle Cycle,WTVC)为基础修订的C-WTVC工况进行测试,该循环各工况的占比与环卫车实际行驶状态差异较大[7],不能体现环卫车的实际运行状态。综上所述,构建城市环卫车的典型行驶工况对环卫车的生产、维护、检测具有十分重要的意义。

孙强等[8]以西安市一辆环卫车为研究对象,采用聚类法构建了西安市环卫车行驶工况。由于单一的研究对象采集区域与路线固定,采集时段覆盖较少,使得构建结果的代表性不够理想。为全面研究城市环卫车的行驶工况与其特征,本文选取了在天津市10个行政区运行的72辆环卫车作为研究对象。对所采集的数据进行预处理后划分运动学片段,以K-means聚类法[9]对片段进行聚类,以GIS技术对聚类结果进行可视化[10],明确环卫车在空间上的运动特征与工作状态。最后应用邻域搜索法完成类内工况的选取,构建了天津市环卫车代表工况。

1 数据采集与清洗

1.1 工况数据的采集

在本文的数据采集阶段,考虑到环卫车活动范围大、作业时间长的工作特点,在天津市十个行政区(市内六区与环城四区)范围内通过移动终端采集了共72 辆环卫车作的实际行驶数据,采样频率为1 Hz,采样类型包括车辆行驶速度、数据采集时间、GPS经纬度信息等运动学信息,采样时间包含工作日与休息日早晚高峰和非拥堵时间,能够更加完整的反映环卫车运行状况。采集数据时长共782 ks,被采样车辆具体情况如表1所示。

表1 采样车辆详情Tab.1 Details of Sampled Vehicles

1.2 实测数据预处理与分析

车辆在数据采集的过程中,受到采集设备状态、路况状态、与环境信号等因素的干扰,导致原始数据存在异常值与缺失值。依据国内的相关文献和国外全球统一轻型车测试程序(World Light Vehicle Test Procedure,WLTP)对异常数据的处理方法[11],对加速度绝对值大于4 m/s2行驶数据进行剔除。针对信号屏蔽所造成的缺失问题,若采集的数据发生缺失且缺失时长小于5 s,则保留此段行程并在段内进行插值,否则删去这段短行程。预处理后的行驶数据的速度分布如图1 所示。由图1 可知,环卫车在中心城区、主干路车速分布在0~20 km/h,在环线,次主干路上行驶速度相对较大,车速主要分布在0~40 km/h,具有工作区域速度低,通勤区域速度高的工作特点。

图1 总体样本速度分布图Fig.1 Velocity distribution of the total sample

2 环卫车行驶工况合成

2.1 运动片段的划分与特征值的选取

运动片段是指车辆行驶过程中两次怠速状态之间的运动行程[12],通常,一个运动片段具有怠速、加速、匀速、减速4 个状态,如图2 所示。考虑到环卫车工作地点多为拥堵路段,且完成环卫车作业时有长时间的停留,本文将初始怠速状态的时长限制在180 s 以下,以避免极端路况与长时间作业对工况构建的影响。

图2 运动片段示意图Fig.2 Schematic of Kinematic sequence

在对运动片段进行信息提取与聚类分析时,特征值的选取有很大的影响。本文从时间、加速度、速度3方面对运动片段进行特征值的构建,用以描述运动片段的15个特征参数,如表2所示。

表2 运动片段特征参数Tab.2 Feature parameters of Kinematic sequence

根据上述要求对采集到的数据进行运动片段划分,共得到3 036个运动片段,时长共计162.4 ks。

2.2 特征矩阵标准化与主成分分析

依据表2计算每个运动片段的特征参数,构成了特征参数矩阵X3036×15。因在特征参数构建时,15 个参数彼此的量纲不同、数量级差异大,直接对特征矩阵X3036×15进行降维分析与聚类分析会导致结果的稳定性较差。为此在对特征矩阵进行进一步处理前,先要对数据进行标准化。

标准化是指将数据按比例缩放,使之落入一个小的特定区间,以此去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。本文中使用标准差标准化的方法,处理后的数据样本均值为0,方差为1,为后期降维创造了条件,具体计算方法如公式(1)所示。

标准化后的15个特征参数间的相关性强,需要使用主成分分析法(PCA)对特征矩阵进行降维[13],从而达到节约计算资源,提升聚类准确性的目的。

主成分分析法是指利用线性变换构造出新变量(即主成分),使得各主成分间两两独立且线性无关,并保留了原变量的绝大部分特征信息。研究表明,若主成分的特征值大于1,且累积贡献率在80%以上,即满足行驶工况开发要求[14]。特征参数矩阵在主成分分析后得到的各主成分相应特征值、贡献率及累计贡献率如表3所示,本文选取前5个主成分,累计贡献率为82.7%,能够达到降维目的,并反映特征参数矩阵的大部分信息。

表3 特征参数矩阵主成分分析结果Tab.3 PCA result of characteristic parameters

2.3 K-Means 聚类方法

车辆的行驶工况可以分为多个类别,同一类别的片段具有相同的运动特征,不同类的片段运动特征差异明显。K-means聚类法作为一种无监督的分类方法,具有分类准确、计算时间短、类内相似度高、类间差异大的优点,被广泛的应用于工况构建领域,其具体过程如下。

1)确定样本的k个初始聚类中心zj。

2)计算每个样本点xi到最近聚类中心zj的欧氏距离。欧氏距离可以反映表征类别间的不相似性,从而根据最小距离的原则重新对样本进行划分。

3)重新计算每个聚类的均值,将此均值作为新的聚类中心。

4)循环步骤2、3,直到每个聚类中心收敛为定值。

为了确定最佳聚类数k,本文采用Calinski-Harabasz(C-H)指标评价聚类结果,并结合“肘部法”确定最佳聚类数。

C-H指标是评价数据集聚类效果的参考,由分离度与紧密度的比值得到。因此,C-H指标越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果,其计算方法如公式(2)~公式(6):

式中:k代表聚类数;N代表全部数据数目;SB为类间方差;SW为类内方差;cq是在聚类q中的样本点;Cq是在聚类q中的中心点;nq是聚类q中的样本点数量;trace 只考虑了矩阵对角上的元素,即类q中所有数据点到类q中心点的欧几里得距离。

如图3 所示,CH 评分在k为3 时取得最大值,为1 342.8 分,之后随着聚类数k的增大而减小,根据“肘部法”,本文将运动片段分为3类,各类片段样本的特征值如表4所示。

图3 C-H 指标评分Fig.3 Calinski-Harabasz score

表4 聚类结果及特征参数Tab.4 Clustering results and characteristic parameters

由表4 所示,3种类别的片段数量分别为1 386、1 040、610,特征参数差异明显。利用采集的GPS 信息对各个类别片段进行可视化,结果如图4所示。图4的底图以天津市城市核心城区为中心缩放而成,各类别样本点依据GPS 信息在地图上进行映射。类别1 中的平均速度最小,怠速比例最大,累计行驶路程短、时间长,多分布在主干路与中心城区,且分布集中,是典型的城区拥堵路况。类别2 的行驶速度较大、匀速比例高、加减速比例接近,与环卫车作业区域重合度高,符合环卫车作业时的特性。类别3具有行驶速度高、持续时间长的特性,多处在环线、快速路等行驶条件较好的路段,是城市道路通畅情况下的行驶工况,即环卫车前往作业区域或作业结束后跟随城市车流驶回停车场情景。

图4 聚类结果空间分布Fig.4 Spatial distribution of clustering results

2.4 行驶工况的合成

在类内工况构建过程中,考虑被采集环卫车的工作区域大、工作时间不固定等特点,本文采用邻域搜索-最小误差的方法进行类内工况构建,其具体流程如图5所示。每类行驶工况的时长由公式(7)得出。

图5 工况构建流程Fig.5 Condition construction process

式中:ti表示第i类运动学片段在最终行驶工况曲线中所占的时间;Ti表示第i类运动学片段库总共持续的时间之和;T表示全部运动学片段持续的时间之和;tr表示车辆行驶工况曲线的时长,此处为1 700 s。

在候选集选取中,本文依据最小距离法进行排序,距离指每个运动片段与所属类别簇心的欧氏距离,选每类中距簇心距离最小的100个片段作为候选集。在构建了类内的候选集后,每次从这3类候选集中随机搜索,选取符合时间要求的运动学片段构建关于行驶工况曲线的目标集,最后根据目标集σ中每条曲线的与总样本的误差大小选取误差最小的曲线作为合成工况曲线。

随机搜索-最小误差的构建方法引入了更高的自由度,这使得模型有一定的概率跳出局部最优解,搜索到更好的解,降低最小误差与平均误差,获得更具代表性的工况曲线。最终得到的工况曲线如图6 所示。由图6所展示的合成工况可知,3类运动片段的差异明显,其时长分别为769 s、525 s、451 s。在低速工况中,车速值小,怠速时间长,启停次数多,是环卫车处于拥堵路况的运动特征;中速工况下速度处于30~50 km/h,怠速片段较低速工况较短;高速工况中,行驶速度大,怠速时间短,是环卫车在环线、快速路的典型行驶状态。

图6 天津市环卫车代表工况Fig.6 Driving cycle of of Tianjin sanitation truck

3 有效性检验

对合成的天津市环卫车代表工况(Tianjin Sanitation Truck Cycle,TJSTC)进行检验,以验证其有效性。首先计算出合成工况与总样本特征参数的误差,如表5所示。结果表明,合成工况的平均速度、平均加速度、匀速比例等参数与总样本的吻合程度较高,各特征参数的误差在10%以下,相对误差的算数平均值为4.60%,表明代表工况的运动学特征与总样本基本一致,能体现城市环卫车的真实工作状态。

表5 合成工况与总样本特征参数对比Tab.5 Comparison of synthetic conditions and total sample characteristic parameters

车辆运行状态并不只与单一运动学特征有关。速度、加速度的联合分布规律决定了发动机的比功率(VSP),是确定车辆行驶状态的关键因素[1]。因此,对合成工况进行速度-加速度联合分布的验证十分必要。如图7所示,合成工况的高速段(40~60 km/h)占比较总样本增大,是因为类别2、类别3两类片段的抽取过程中,在该部分统计量较多。低速段(0~20 km/h)的分布趋势比较一致,多位于加速度较小的区域内,符合环卫车的工作特点。说明所构建代表工况能很好地反映试验数据样本,表征城市环卫车的实际行驶特征。

图8 TJSTC 与其他代表工况对比Fig.8 Comparation between TJSTC and other cycles

4 合成工况比较分析

为进一步分析天津市环卫车的运行工况,将所构建的天津市环卫车代表工况的部分特征参数与C-WTVC 标准工况、C-WTVC*工况、中国自卸行驶汽车工况(China Heavy-duty Commercial Vehicle Test Cycle for Dumper,CHTC-D)工况进行对比。其中,C-WTVC*工况为C-WTVC标准工况去除432 s的高速段后的工况。

TJSTC工况具有匀速比例、怠速比例大、速度变化趋势平缓、平均速度小的特点。相比于C-WTVC工况,TJSTC工况的平均速度约为C-WTVC工况的30%,匀速、怠速比例略高,其主要原因是环卫车在清洁作业时必须保持稳定的较低车速。考虑此因素的影响,将去除高速段的C-WTVC*工况与TJSTC工况进行对比,结果表明,C-WTVC*虽在平均速度上与TJSTC更为接近,但加速、匀速比例与TJSTC工况差异依旧明显。与CHTD-D 工况相比,TJSTC 工况的平均速度、加减速比例较低,匀速比例较高。与其他3种标准工况对比表明,现有的C-WTVC工况、C-WTVC*工况、CHTC-D工况与TJSTC 工况差异较大,难以有效的反映城市环卫车的实际工作状态,不适用与城市环卫车的工作测试。

5 结论

1)本文以天津市环卫车为研究对象,采用自主驾驶法采集数据782 ks,经过数据清洗、片段划分后,得到运动片段3 036 个,运用python 语言编写程序脚本,获得各片段的特征值,并以主成分分析法、Kmeans聚类法、肘部法对运动片段进行聚类处理,最后用邻域搜索法完成了时长为1 745 s的天津市环卫车典型工况构建。

2)通过GIS技术对环卫车工况曲线进行可视化,3类片段的空间分布规律符合环卫车的工作特点。特征值误差分析与速度-加速度联合概率分布表明,合成工况与总样本的误差为4.60%,且速度-加速度分布趋势相似,说明合成工况可以很好地反映总体采集样本。

3)将构建的TJSTC工况与现有标准工况进行对比,结果表明环卫车TJSTC具有匀速比例高、平均速度低、加减速比例小的运行特点,能真实地表征城市环卫车运行状态,为区域内环卫车性能优化提供了有效的支持。

猜你喜欢
特征参数天津市聚类
故障诊断中信号特征参数择取方法
基于特征参数化的木工CAD/CAM系统
有趣的云
如果画笔会说话?
天津市第三届“未来之星”初中数学邀请赛
基于DBSACN聚类算法的XML文档聚类
基于PSO-VMD的齿轮特征参数提取方法研究
基于高斯混合聚类的阵列干涉SAR三维成像
统计特征参数及多分类SVM的局部放电类型识别
一种层次初始的聚类个数自适应的聚类方法研究