基于驾驶场景与决策规则的智能汽车换道决策

2024-03-19 11:46浦同林张倩兮聂枝根

重庆理工大学学报(自然科学) 2024年2期

张昆，浦同林，张倩兮，聂枝根

（昆明理工大学交通工程学院，昆明 650500）

0 引言

行为决策模块是智能网联汽车在复杂、动态的交通环境中安全行驶的关键，能够更安全、有效地实现驾驶意图［1］。换道行为是车辆行驶过程中最为常见的行为，分为自由换道［2］、协同换道［3］和强制换道［4］，相比于车道保持行为而言，具有更高的风险。智能网联汽车根据交通规则和其他交通参与者的运动状态做出换道或保持车道的行为决策，如果在换道条件不满足的情况下执行换道，将严重影响交通安全，因此，准确的换道决策对于交通安全至关重要。

目前，针对车辆换道决策的研究已有较多成果，Gipps等［5］最早对换道行为进行建模，从换道必要、意向和安全三方面分析，提出了一种基于规则的换道决策方法，但难以确定模型的参数。随着人工智能技术的进步，机器学习和深度学习被广泛应用于换道行为决策［6－10］。Motamedidehkordi等［11］提出传统的规则模型不能精确地表示驾驶员在换道决策时考虑的诸多因素，提出了基于随机森林（Random Forest，RF）的换道决策模型，其具有良好的预测精度。邓建华等［12］分析了驾驶员换道决策的内外因子，引入基于换道决策机理的多车道元胞自动机模型，其在不同的V／C条件下均具有良好的适应性。徐兵等［13］分析了换道场景中各特征变量与换道决策之间的关系，提出了基于梯度提升决策树（gradient boosting decision tree，GBDT）换道决策模型，引入新的特征变量，提高了决策模型的预测性能。贾寒冰等［14］针对智能车辆在道路上的换道决策问题，利用新增的特征变量增广原训练集，提高了模型预测准确率。Lopez等［15］提出了结合深度学习与博弈论的换道决策算法，设计了智能算法调整博弈参数，可快速、可靠地进行决策。Feng等［16］在给定相对位置和速度信息的情况下，通过综合考虑时空分布、交通规则等因素，建立了基于时空间隙的换道决策模型。Feng等［17］针对不同的换道工况，从车辆的物理特性、交互感知和道路结构三方面选取特征变量，以此建立换道决策模型。Peng等［18］采用双层深度强化学习算法对状态空间进行处理，使用D3QN算法分析场景中潜在的换道价值并进行决策。张羽翔等［19］通过强化学习来求解车道变换过程中的精确决策参数，从而提高安全性能，并可在变道场景中模仿真实的驾驶行为。

目前，关于智能网联汽车自由换道决策的研究较少，且预测精度较低，在复杂多变的交通环境下，如何安全、准确地做出换道决策，还有待进一步研究。因此，在上述研究的基础上，引入一种基于换道场景与决策规则的智能网联汽车换道决策模型，进一步提升模型训练分类的准确率。本文的主要工作如下：

1）对NGSIM数据集进行滤波，提取了真实驾驶环境下的换道数据，包括自车和周围车辆的行驶状态变量。

2）NGSIM数据集存在样本数量过少、目标数据提取繁琐、数据质量不佳等问题，根据NGSIM的状态变量提取原则，建立了样本容量更大、换道特征变量取值更为直观准确、符合真实驾驶场景的换道场景数据集，扩充了NGSIM 换道场景数据集。

3）建立了基于决策规则的自由换道决策模型，从换道安全、换道收益、换道必要性3个方面分析了换道行为决策，将决策规则用于换道场景数据集，得出正负样本。

4）将换道场景数据集与从NGSIM数据集中提取出的换道样本融合，基于贝叶斯优化核函数的支持向量机模型对数据集进行训练分类，对不同样本容量和不同机器学习模型的训练结果进行了对比分析。

1 数据处理

NGSIM US-101和I-80车辆轨迹数据被广泛应用于车辆换道行为研究［20］。该数据集通过视频分析得到车辆的位置、速度、加速度等状态信息，存在一定的噪声，本文中使用滑动平均滤波方法［21］对原始数据进行处理，之后对数据集中的自由换道数据进行提取，根据文献［7－9］对换道决策过程的分析提取规则。具体规则如下：

1）NGSIM数据集中包含多种车辆类型，包括摩托车、商用车、乘用车等，由于换道方式及动力学特性的差异和本文中的决策模型主要针对乘用车，因此仅保留乘用车数据。

2）数据集包含6条车道，第6车道为汇入匝道，本文中研究的内容为自由换道，不考虑匝道汇入的强制换道行为，故不考虑第6车道的换道行为。

3）换道车辆换道意图开始时刻前、后4 s内车辆的状态能够较好地覆盖整个换道过程［22］，最终选取［t0－4，t0＋1］时间段内的状态信息，其中t0为换道初始时刻。

4）换道初始时刻t0的提取尤为重要，将横向速度大于0.2 m／s的时刻作为t0［23］，数据集中存在横向速度波动但未进行换道操作的数据，采集［t0，t0＋1］］时间段内的数据，提取横向速度大于0.2 m／s且1 s后横向位移大于0.3 m的数据作为换道数据，同时剔除连续换道数据。

5）提取出的换道数据为正样本，记为＋1，未换道数据为负样本，记为－1。

按照上述规则提取数据后，提取出529条换道数据和870条未换道数据。

车辆的自由换道行为涉及周围车辆的运动状态，换道决策需要考虑各种交通因素的影响，不考虑弯道换道行为，建立两车道直道自由换道模型，道路分为初始车道和目标车道，交通环境包含换道车辆SV，初始车道前车PV，目标车道前车TP和目标车道后车TF，如图1所示。

图1 换道场景示意图

对能从NGSIM数据集中直接获得的原始状态变量（位置、速度、加速度等）进行处理，得到反映各车相互关系的状态变量，并进行编号：

1）vSV：换道车辆的速度；

2）ΔvPV＝vPV－vSV：初始车道前车与换道车辆速度差；

3）ΔvTP＝vTP－vSV：目标车道前车与换道车辆速度差；

4）ΔvTF＝vSV－vTF：目标车道后车与换道车辆速度差；

5）SPV：初始车道前车与换道车辆车距；

6）STP：目标车道前车与换道车辆车距；

7）STF：目标车道后车与换道车辆车距；

8）ΔaPV＝aPV－aSV：初始车道前车与换道车辆加速度差；

9）ΔaTP＝aTP－aSV：目标车道前车与换道车辆加速度差；

10）ΔaTF＝aSV－aTF：目标车道后车与换道车辆加速度差。

这些特征变量反映了在换道初始时刻交通场景中各车辆的相互关系，忽略了换道之后的交通行驶状况对自由换道决策的影响，引入新的特征变量：

11）vdesired：换道车辆的期望车速，在NGSIM数据集中的提取规则为换道车辆在［tf－2，tf＋2］时间段内的平均车速，tf为换道终止时刻；

12）ΔS＝STP－SPV：换道前后换道车辆与前车的车距变化。

在提取出特征变量后，从互信息（mutual information，MI）的观点出发，在NGSIM数据集中研究各特征变量与换道决策之间的关系［24］。互信息表示为：

式中：p（a，b）为联合分布，p（a）、p（b）为边缘分布。

最大信息系数（maximal information coefficient，MIC）［25］是互信息在一定条件下的估值，利用互信息和网格划分方法计算［26］，用于衡量变量间相互依存的程度，能够较好地表现特征变量间的线性和非线性关系，具有优异的普适性。MIC计算公式如下：

式中：x、y为划分网格的数量，B为网格划分的上限值。

图2展现了各特征变量与换道结果的MIC数值。

图2 特征变量与换道结果的MIC值

2 换道规则模型

换道车辆SV自身的行驶状态及周围车辆的行驶状态都将影响SV是否换道，基于上文评估出的MIC值较高的特征变量，从换道安全、换道收益和换道必要性3个方面建立换道决策模型［27］。

2.1 换道安全

车辆换道的前提是保证换道过程的安全性，不与其他车辆发生碰撞。换道车辆SV在换道过程中与PV、TP及TF皆存在碰撞风险，换道安全性体现为换道车辆与环境中其他车辆的距离及速度差，因此引入碰撞时间（time to collision，TTC）来表示换道安全性。

安全换道的条件为换道车辆与环境中其他车辆的碰撞时间都大于最小换道时间，在车距较小且速度差较小的工况下，碰撞时间同样大于阈值，此外，安全换道需要最小安全车距，由此建立安全模型。

2.2 换道收益

车辆换道的目的在于获得更高的行驶车速或与前后车更大的行驶车距，换道车辆在换道前后都与其所在车道的前车保持跟驰关系，换道车辆SV在初始车道所能达到的最大车速为vPV，在目标车道所能达到的最大车速为vTP，由此建立换道收益函数，速度收益表示为

式中：vdesired为换道车辆期望的行驶车速，vdesiredvPV为期望速度收益，vTP－vPV为实际速度收益。

目标车道的更快的行驶车速和更大的行驶空间促使驾驶员产生换道动机，空间收益表示为

由此，换道收益模型建立为

2.3 换道必要性

换道车辆与初始车道前车的行驶状况决定了换道必要性，车距越小、速度差越小，换道必要性越大，此外，当满足了换道安全和收益条件，但车距相当大时，仍进行换道操作会导致车辆频繁换道，增加换道风险，因此，引入车头时距（time headway，THW）表示换道必要性：

萧飞羽收回目光咽了一口唾沫，他缓缓推动钢环沉吟了好一会才道：“我如同悬崖走马，稍微的变故都会草木皆兵，所以昨夜见你在门前徘徊我并没有感知杀机也猝然出手。”他轻描淡写地告诉柳含烟安和庄与黑旗会汉口分坛起争端，因为他不想让外人知晓，又不仅仅有人知道她被囚禁在黑旗会汉口分坛，所以她指认这里是安和庄就只有留下她。他歉疚地道：“昨天你要见我，我想不出是什么原因，可我实在不想见你，因为除了答应你在后院可以像在家里一样自由我不能答应你任何要求。稍安勿躁，如果没有意外，短则数月，长则一载就会还你自由。”

式中：tTHW为车头时距。

3 换道场景数据集及支持向量机模型

3.1 换道场景数据集

NGSIM数据集采样时间短，存在噪声，不同的滤波方法对状态信息的处理效果不同，不同的换道数据提取规则提取出的数据不同，且符合换道训练集标准的样本量偏少，对于非换道样本的目标数据提取，从车道保持数据中随机选取时长为4 s的轨迹作为目标数据［23］，且正负样本比例固定，这些因素都会影响模型的分类效果。

在已有换道决策研究的基础上，建立换道场景数据集。建立数据集选取的特征变量应是能从NGSIM数据集中可获得的，训练集的建立原则为

1）在［t0－5，t0＋1］时间段内，交通环境中同车道前后车无碰撞风险。

2）交通环境中的车辆前后车之间保持跟驰关系，但又存在随机性。

3）假设周围车辆PV、TP、TF保持直道行驶，不考虑其换道行为。

4）换道车辆在t0时刻的期望速度总是大于当前速度。

换道场景选取的特征变量在t0－4时刻的取值范围如表1所示。

在所设定的取值区间内产生n个均匀分布的数据，产生维度为［n×j］的矩阵，矩阵的一行即为一组随机组合的换道场景数据，以此模拟复杂多变的交通环境。将决策模型应用到所建立的训练数据集中，得出［n×1］的列向量作为训练集的决策结果，＋1为换道，－1为保持当前车道，由此换道场景数据集建立完成。

3.2 支持向量机模型

智能网联汽车的自由换道决策是一个典型的二分类问题，支持向量机（support vector machine，SVM）是一个经典的二分类算法［28］，其能找到的分割超平面具有更好的鲁棒性，这个超平面可以将数据集分割为换道和不换道2个部分。

式中：D为数据集合；｛（xi，yi）｝，i＝1，2，3，…，n为训练样本，其中xi为输入特征变量，即换道决策模型中的特征参数，n为样本个数；yi＝｛＋1，－1｝为样本类别，＋1记为换道，－1记为不换道。分割数据集的超平面可表示为

式中：ωT为超平面的法向量，是可调的权值向量，决定了超平面的方向；b为偏置量，是超平面和坐标原点间的距离；数据集D中每个样本xi到分割超平面的距离γi为

间隔γ定义为2个异类的支持向量到超平面的距离之和：

支持向量机的目标就是寻找一个超平面使得间隔γ最大，将式（13）改写为凸优化问题，故模型的求解转化为

线性支持向量机难以处理车辆自由换道决策这样的非线性问题，使用核函数将样本从原始特征空间映射到更高维的空间，解决原始特征空间中的线性不可分问题。由于支持向量机的约束条件比较严格，为了容忍部分不满足约束的样本，引入松弛变量ξ，模型的求解转化为

式中：常数C＞0为超参数，是用来控制间隔和松弛变量惩罚平衡的参数。使用拉格朗日乘数法，得到式（16）的对偶形式：

式中：λi为拉格朗日乘数；κ（xi，yj）为核函数，选取最为常用的高斯核函数：

式中：σ为高斯核的带宽，σ的数值越小，判别条件越严苛，这样确保和高精度，但很容易导致过拟合，反之σ的数值越大，易导致欠拟合。

支持向量的分类性能很大程度上受到超参数C和带宽σ的影响，需要对超参数进行优化以得到最优的分类效果。常用的超参数优化方法有贝叶斯优化（Bayesian optimization Algorithm，BOA）［29］、网格搜索［30］和随机搜索［31］。网格搜索十分消耗计算资源，随机搜索虽然搜索速度快，但容易忽略某些信息的影响，因此本文中使用BOA优化超参数，假设超参数优化的函数f（x）＝f（C，σ）服从高斯分布，作为代理模型：

以期望改善函数（expected improvement，EI）作为采集函数来决定输出下一个采集点：

式中：xnext为下次迭代的最佳采样点，xbest为当前已有样本中的最优值。贝叶斯优化算法的框架如表2所示。

表2 贝叶斯优化算法

训练集中不同的特征变量有着不同的取值范围和量纲，为了减小对模型训练过程产生的影响，使用Max-Abs归一法对数据进行归一化处理，使特征变量的取值范围变为［－1，1］，数据归一化公式为

式中：z′为归一化处理后的特征变量，z为原始特征变量，max为数据集中该特征变量的最大值。将换道决策模型应用到所建立的n条换道场景数据集中，得出结果1记为换道，－1记为保持当前车道，与从NGSIM数据集中提取出的500条换道样本一同组成样本容量为n＋500条样本数据，从样本数据中随机抽取75%作为机器学习模型的训练集，25%为验证集，本文中的方法框架如图3所示。

图3 研究方法框架示意图

4 模型验证及结果分析

4.1 数据集对比分析

为了验证换道决策规则的有效性与换道场景数据集模拟真实驾驶环境的能力，对比换道场景数据集与NGSIM数据集的相似度［32］。将决策规则用于换道场景数据集中，随机抽取529条换道数据，换道场景数据集特征变量矩阵A∈Rp×q，NGSIM数据集特征变量矩阵B∈Rp×q：

式中：p＝1∶529为样本容量，q＝1∶12为特征变量编号。

若存在矩阵C∈Rp×q和D∈Rp×q，使得B＝CAD，则表明B包含于A中，同理，若存在矩阵E∈Rp×q和F∈Rp×q，使得A＝EBF，则表明A包含于B中，但在实际情况中，不存在B完全包含于A或A完全包含于B的情况，通过在线性变换过程中的信息损失来衡量2个数据集的相似度，随机初始化C、D、E、F，由此变为优化问题：

将结果映射到［0，1］中，得到2个数据集的相似度：

对于换道数据，2个数据集的相似度为0.911 2，同理得出车道保持数据，相似度为0.905 5，表明决策规则符合驾驶人的决策习惯，具有拟人性，换道场景数据集能够有效地模拟真实的换道驾驶场景。

4.2 数据集分类效果对比

换道场景数据集的样本容量n过大会使各特征变量数值差距较小，同时也增加决策模型运算量，将不同样本容量的数据集得到的训练效果进行对比，验证不同样本容量对分类效果的影响。设置不同的换道场景数据集样本容量，n＝500、1 000、1 500、2 000，同一样本容量下分别进行10组试验，表3为支持向量机训练结果，包括换道场景数据集的模型参数及加入NGSIM换道数据后的预测准确率。可以看出，换道场景数据集不同的样本容量的训练结果平均准确率均高于90%，所建立的换道场景数据集能较好地模拟真实的换道场景，所提出的换道决策模型符合真实驾驶员的换道操作和行为决策特性，n＝1 500，总样本容量为2 000的数据集训练效果最佳。

表3 不同样本容量训练分类结果

在不同样本容量的10组试验中抽取1组，图4为不同样本容量数据集的迭代优化结果，AUC为接受者操作特性曲线（receiver operating characteristic curve，ROC）的线下面积，i为迭代次数。可以看出，不同样本容量的数据集在迭代后的AUC值均接近于1，最高值为0.99，总样本容量为2 000的数据集训练效果最佳。

AUC值是评价二分类模型优劣的评价指标之一，还需从量化指标方面进一步评价机器学习模型的训练效果，采用正确率（accuracy，ACC），真正类率（true positive rate，TPR），真负类率（true negative rate，TNR）评估模型的训练效果。

式中：TP为实例是正类，被预测为正类的样本数；TN为实例是负类，被预测为负类的样本数；FP为实例为负类，被预测为正类的样本数；FN为实例为正类，被预测为负类的样本。

正确率ACC是被分类正确的样本数占总样本数的比率，体现了模型对整个数据集的分类能力；真正类率TPR是将为正类的实例预测为正类的比率，即将换道预测为换道；真负类率TNR是将为负类的实例预测为负类的比率，即将保持当前车道预测为保持当前车道。换道行为决策受交通环境中其他车辆的影响，将保持当前车道预测为换道相比于将换道预测为保持当前车道存在更大的危险，因此，换道决策模型在具有较高的正确率的同时应具有较高的真负类率。

利用换道规则模型对换道行为进行决策，需要对比规则模型在换道场景数据集和NGSIM数据集上的训练效果，验证换道规则模型和新特征变量的影响。训练结果如表4所示。从表4可以看出，相比于原始变量77.80%的预测正确率，换道规则模型在NGSIM数据集上能取得较好的训练效果，正确率为92.60%，在换道场景数据集中获得了最佳的分类效果，表明换道规则模型能够大幅提高换道决策的准确率，换道场景数据集能够较好地模拟真实的驾驶环境。

表4 规则模型与原始变量训练结果

4.3 不同机器学习模型性能对比

在上述数据集不同样本容量的对比试验中得出的训练效果最优的总样本容量为2 000的基础上，利用贝叶斯优化算法对SVM、GBDT［13］、最邻近算法［33］（K-nearest neighbor，KNN）、朴素贝叶斯分类器［34］（naive Bayes classifier，NBC）进行参数优化，在同一数据集下，对比不同机器学习模型的分类效果，优化过程如图5所示。

图5 机器学习分类器参数优化过程

图6展示了同一数据集下，不同机器学习分类器的量化指标。可以看出，相比于其他机器学习分类器，贝叶斯优化高斯核的支持向量机模型具有最高的正确率和真负类率，分别达到了94.40%和95.48%，较高的真负类率使换道决策更加安全有效。此外，使用贝叶斯优化的KNN、GBDT、NBC，同样具有较高的分类正确率，具有良好的分类效果。

上述试验表明，所建立的换道场景数据集能与真实的NGSIM数据充分融合，能够较好地模拟真实的换道场景，并为换道决策研究提供训练、验证，为智能网联汽车换道轨迹规划提供工况、场景。同时表明，所提换道决策算法能够准确预测自车的自由换道行为，符合真实驾驶环境下人为换道的决策特性。

5 结论

针对智能网联汽车的自由换道决策问题，提出了基于换道场景与决策规则的换道决策模型。

1）真实的NGSIM数据集对于换道样本的提取较为繁琐，符合训练集标准的样本偏少，直道行驶样本的数据提取具有随机性，样本容量较小，数据质量不佳，影响模型的分类效果。换道场景数据集的建立使样本容量选取自由，换道特征变量取值更为直观准确，省去大量的数据处理工作。

2）建立了基于决策规则的自由换道决策模型，从换道安全、换道收益、换道必要性3个方面分析了换道行为决策，将决策规则用于换道场景数据集得出正负样本，在与NGSIM数据集换道样本融合后用于机器学习分类器的训练分类。

3）贝叶斯优化核函数的支持向量机以95.40%的预测正确率高于其他分类器，所提决策模型能够准确地预测自车的自由换道行为，融合后的数据集在不同的样本容量和不同机器学习分类器的训练后均有较高的正确率，表明所建立的换道场景数据集能与NGSIM数据集融合，能够较好地模拟真实的换道场景。