面向铁路道岔情景下的列车轨道区域检测方法

2024-02-18 13:46陈裔鋆

应用科学学报 2024年1期

陈裔鋆，陈羽，滕飞

1.西南交通大学计算机与人工智能学院，四川成都 611756

2.西南交通大学唐山研究院，河北唐山 063000

中国的轨道交通运输目前正面临人员和物资大规模流动的压力，而障碍物侵入轨道线路给铁路安全带来了重大隐患。国际铁路联盟声称90% 的铁路事故是由第三方障碍物侵入铁路车道造成的。铁路安全事故带来了社会经济损失和人员伤亡。因此，需要高度重视并采取有效措施加以解决[1]。为了保证列车的安全行驶，提高列车的主动障碍物检测能力成为解决问题的有效手段，而列车主动障碍物检测的基本要求之一是铁路轨道区域的检测。

近年来，许多学者致力于铁路轨道区域检测并提出了各种方法，如轨道区域分割、轨道道岔检测等。目前，轨道交通感知技术一般分为两部分：一是将城市道路感知方法直接运用到轨道交通领域；二是充分利用轨道交通的特点，在原有交通技术上改进。现有轨道交通感知技术大多直接取自城市交通技术。

汽车车道线检测技术已经非常成熟，并已广泛应用于自动驾驶领域。文献[2] 通过神经网络直接从图像中分割出车道线像素；文献[3] 巧妙地结合传统图像特征和神经网络提取车道线；文献[4] 将车道线抽象为图进行检测。然而，轨道交通有其自身的特点，若不考虑铁路的具体情况，仅仅迁移车道线检测技术是远远不够的。因此，一些研究者将车道线检测技术与轨道交通系统的特点相结合，研究了轨道区域检测技术。

在轨道区域检测方面，一些研究者使用传统分割方法得到轨道区域，利用铁路的几何特征来检测铁路和铁路车道。其中，基于反向透视变换的轨道区域检测方法是先将车载摄像机捕获的图像转换为鸟瞰图[5]，然后利用不同的轨道特征提取出轨道线。文献[6] 提出了一种通过滚动窗口检测轨道边缘的道岔检测算法，然后基于定向梯度和模板匹配进行轨道检测。文献[7] 在估计轨道位置的基础上，在图像中沿轨道边缘确定一个通畅的空间，拟合轨道边缘曲线。文献[8] 根据轨道匹配的边缘特征对轨道曲线进行拟合，并使用抛物线段对轨道曲线进行拟合，将其延伸到较远的区域。文献[9] 首先计算定向梯度特征的直方图，构建完整的图像，然后使用区域生长算法提取铁轨，最后通过识别道岔的开口方向找到列车将通过的路径。文献[10] 提出了一种新颖而通用的系统来检测轨道的位置。

一些研究者使用神经网络对轨道区域进行分割[11-14]，然而在大量的轨道像素中依然很难区分出特定的运行轨道。于是一些研究人员将注意力转向道岔检测，以提高列车安全性[15]。这也带来了新的问题，简单的道岔或开合方向检测只能近似地确定可能对列车有危险的区域，而不能准确地确定对列车的危险程度。

综上所述，目前的轨道检测方法多用于简单设置下的轨道检测，如单轨或平行轨。然而，在列车运行过程中环境复杂，经常会遇到铁路道岔。现有技术和算法大多无法检测多个道岔设置下的轨道，但对于运行的列车来说，该场景属于高风险场景[16]。在复杂的环境下，轨道检测是极其困难的。首先，随着列车行驶，坡度通常会发生变化，使得摄像机与铁路区域之间的变换矩阵难以实时获取。其次，轨道交叉和不同轨道之间的像素难以区分。最后，由于左右车道之间的匹配难以定义，所以很难区分铁路车道。

本文以铁路区域和钢轨作为研究对象，提出了一种面向铁路道岔情景下的列车轨道区域检测方法，为列车前方运行区域检测提供了新的思路。

1 列车轨道区域检测方法原理

本文提出了一种基于信息融合的方法对铁路区域和钢轨进行分割，使用分割结果进行轨道匹配，并利用其分割结果，设计了一种基于反向透视变换的铁路区域重建方法，充分挖掘铁路钢轨的几何特征，在搜索到道岔区域时进行道岔方向的判别。由于向左和向右的道岔在整体上的纹理特征上相似度较高，而道岔图像的分类是根据道岔的开合状态来进行判别的，因此需要区分道岔开合状态细小的特征差异，使用基于深度学习的分类模型判别道岔方向，之后保存钢轨的关键点，重建出列车的实际运行区域。总体框架如图1 所示，下面对关键步骤进行说明。

图1 本文方法的总体框架Figure 1 Overall framework of the proposed method

1.1 基于信息融合的铁路轨道区域分割模型

我们提出了一种基于信息融合的铁路区域分割模型来解决铁路区域和钢轨分割问题，如图2 所示。模型使用空洞空间池化金字塔（atrous spatial pyramid pooling,ASPP）同时处理图像中不同尺度的特征。然后将这些特征与其他尺度的特征融合起来，以提高模型的准确性和稳定性。另外，模型使用文献[17] 提到的集合预测机制，可以将现有的像素分类模型转换为掩码分类，从而有效提高推理速度。Transformer 解码器生成N对类别预测和掩码嵌入向量，其中掩码嵌入向量与像素嵌入进行点积运算得到二进制掩码预测。最后通过矩阵乘法将N个二进制掩码预测与其类别预测相结合来得到最终预测。

图2 基于信息融合的铁路区域分割模型Figure 2 Railway area segmentation model based on information fusion

1.1.1 主干网络设计

以大小为H×W的图像作为输入，使用添加了注意力机制的深度可分离卷积结构对铁路图像进行特征提取，主干网络生成一个低分辨率图像特征图，表示为

式中：Cf为通道数；S为特征图的步幅。

采用改进的Xception_ECA 网络作为主干网络，如图3 所示，其中Sep_ECA 是添加了注意力机制的深度可分离卷积特征提取结构。Xception_ECA 可以更好提取图像的细节特征，例如轨道的细节、曲线、直线等，并能有效区分背景和前景，提高铁路图像的分割精度。在主干网络中引入注意力机制进行特征优化，提升模型的性能表现。

图3 主干网络Figure 3 Backbone network

Xception 中的最大池化操作都被结合注意力机制的深度可分离的卷积与跨步替换，这使得能够使用Sep_ECA 模块提取特征映射，并且在每次Sep_ECA 操作后添加额外的批量归一化和ReLU 激活。

Sep_ECA 结构通过整合深度可分离卷积和ECA 模型[18]得到，如图4 所示。Sep_ECA结构可以有效减少模型参数量，同时保证对铁路钢轨特征的高效提取。

图4 Sep_ECA 结构Figure 4 Structure of Sep_ECA

经过单层Sep_ECA 结构的输出可表示为

式中：ySep_ECA为Sep_ECA 结构；f(x) 为输入特征图x经过Sep_ECA 结构的输出；σ为激活函数，使用LeakyRelu 函数进行映射。

1.1.2 空洞空间池化金字塔

ASPP 结构主要针对铁路图像中目标区域（如铁路线和钢轨等）的全局和局部特征进行优化。使用ASPP 同时处理图像中不同尺度的特征并融合起来，帮助模型更好地理解整个铁路图像中的内容和关系。通过学习铁路图像中不同区域之间的联系，可以更准确地检测铁路区域和钢轨，减少其他区域的干扰。ASPP 结构可以分为以下3 个步骤：

步骤1通过在ASPP 结构中引入多尺度的空洞卷积来扩大感受野，从而捕捉更广阔的上下文信息；

步骤2对输入特征进行全局平均池化操作，得到每个通道上的特征值；

步骤3将多尺度空洞卷积和特征值进行拼接，通过一个卷积层进行融合，得到最终的ASPP 特征表示。

1.1.3 像素解码模块

特征图的低分辨率会导致下采样过程中的信息丢失，因此可通过解码器的上采样模块来恢复特征图的大小。上采样模块能够将特征图的分辨率逐步提高，并将其与编码器中提取的低分辨率特征图进行融合，构成多尺度的信息金字塔。编码器中包含铁路图像纹理细节，而编码器的深层特征包含铁路图像结构信息，通过特征融合模块来共享和组合结构纹理信息。解码器对拼接后的铁路图像特征进行上采样，得到的像素嵌入为

式中：Cε为像素嵌入维数。

1.1.4 Transformer 解码器模块

解码器模块使用标准的Transformer 结构[19]，其中自注意力机制的输入是CNN 输出的特征映射，即查询矩阵Q、键矩阵K和值矩阵V。每个自注意力机制的计算公式为

多头自注意力机制并行使用多个自注意力，学习不同类型数据之间的相互依赖关系，公式为

Transformer 解码器模型使用集合预测机制[17]，从图像特征f和N个可学习位置嵌入计算输出，生成N对类别预测和掩码嵌入向量。即N个CQ维度的嵌入，表示为Q∈，编码用于预测的每个可学习位置的全局信息，解码器并行生成所有预测。

在每个可学习位置嵌入上应用线性分类器，然后进行softmax 激活，得到每个位置上的类别概率预测，可表示为

若嵌入不对应于任何区域，分类器将其预测为一个额外的“无对象”类别(∅)。对于掩码预测，具有2 个隐藏层的多层感知器将嵌入Q转换成维数为Cε的N个掩码嵌入向量。然后，将掩码嵌入向量与像素嵌入εpixel进行点积运算得到二进制掩码预测，进而得到每个二进制掩码预测mi∈[0,1]H×W，之后通过sigmoid 激活，公式为

1.1.5 损失函数设计

1）针对铁路轨道数据的样本不均衡问题，设计了掩码的FocalLoss 损失函数，即

2）铁路区域和钢轨之间具有强相关性，所以采用DiceLoss 作为类别损失函数，即

式中：yi与yj分别为像素i的标签值与预测值；N为像素点总数。

整体损失函数为

式中：λfocal，λdice分别为掩码损失和类别损失的权重。

1.2 基于反向透视变换的铁路区域重建方法

1.2.1 轨道搜索区域判定

上一节铁路轨道像素的掩码分割结果只存在3 种像素值，即0、1、2，分别代表钢轨、铁路区域、背景。当两条钢轨之间的像素值为1 时，表明两条钢轨之间的区域为铁路区域，此时就能匹配一对正确的钢轨。

如图5 所示，从铁路图像上分析，列车当前运行的铁路区域处于图像底部的30%～70%，由于分割结果的最底部往往有缺陷，因此通常忽略掉图像底部的数个像素点，即从距离图像左边缘30% 且距离图像底部边缘数个像素点的位置开始从左至右进行列车运行轨道搜索区域的判定，由于铁路区域和钢轨是强相关，通过上述方法，可以确定列车运行轨道的搜索区域。

图5 列车运行轨道的区域Figure 5 Area where the train operates

1.2.2 钢轨的骨架提取

在确定钢轨底部的初始位置后，要对钢轨进行骨架提取以便于后续的道岔搜索。其中使用的骨架提取（Skeletonization）算法主要基于文献[20] 提出的算法，最终得到一个单像素宽度的线条，称为骨架。

1.2.3 列车运行铁路区域重建

在确定列车运行当前轨道的初始位置和完成骨架提取后，使用滑动窗口的搜索方式对钢轨进行保存，具体算法如下：

1.2.4 基于反向透视变换的道岔截取

如图6 所示，将近距离和远距离的铁路道岔分别抽象成长方型ABCD和A1B1C1D1。过A点和A1点，过B点和B1点，过C点和C1点，过D点和D1点分别作射线，找到消失点O。由相似关系，可推出远距离道岔的两边长度分别为

图6 铁路道岔透视关系Figure 6 Perspective relationship of railway switches

式中：L表示线段长度。

1.2.5 基于分组卷积的铁路道岔分类模型

1.贯彻落实十八大精神，加强思想政治理论教育。没有政治这个灵魂，就不可能成为一个清醒的、合格的、奋发有为的领导干部。提高领导干部的思想政治素质，是建设高素质干部队伍的前提和基础。十八大给我们在新时期的发展指明了方向，我们必须充分发挥党校的“主阵地”作用，用马克思主义、毛泽东思想、邓小平理论、“三个代表”重要思想和科学发展观教育干部，引导他们在工作中认真践行科学发展观，提高他们贯彻执行党的基本路线、基本理论、基本纲领的能力，提高他们的思想品质和道德素质。

为了解决道岔分类问题，提出了基于分组卷积的铁路道岔分类模型，整体结构如图7 所示。为了区分道岔开合状态细小的特征差异，使用ResNeXt50 网络[21]作为分类识别的主网络，并在其中加入注意力模块。此外，还采用了多尺度的注意力，有效提取道岔图像的开合状态信息，降低过拟合现象并提高尺度不变性。

图7 基于分组卷积的道岔分类模型Figure 7 Railway switches classification model based on group convolution

基于分组卷积的铁路道岔分类模型包括以下几部分：

1）改进的ResNeXt 残差块结构

ResNeXt 残差结构块可以帮助网络学习道岔图像中更加抽象和复杂的特征。在ResNeXt中，分支合并形式可表示为

式中：Ti为相同的拓扑结构。将输入特征分为C个分支数目，本文C取32。

铁路道岔的差异并不明显，含有非常多的相似信息，如钢轨、枕轨和各种零部件，这些信息会干扰模型的特征提取，为此引入卷积模块的注意力机制模块（convolutional block attention module,CBAM）[22]进行特征优化来提高模型的识别精度。在CBAM 中包含通道注意力模块和空间注意力模块。

由于道岔图像中的不同通道可能包含不同信息，引入CBAM 通道注意力机制后可以使模型更加关注对分类任务有帮助的通道。此外，可以计算道岔图像在空间上的重要性权重，对特定的区域进行加权。这可以帮助模型更加关注道岔本身的特征，解决道岔图像中存在的环境混淆、低对比度等问题。

在原始Block 和残差结构连接前依次通过通道注意力模块和空间注意力模块。经过卷积注意力后的输入表示为

2）多尺度注意力模块

为了有效地提取道岔图像中的钢轨开合特征，采用了空洞卷积层作为构建多尺度注意力的卷积结构，如图8 所示。同时，不同尺度的卷积核可以适应不同大小和形状的道岔图像，从而提高网络的鲁棒性和泛化能力。我们利用不同扩张率的空洞卷积层来捕获不同比例的道岔像素特征：首先将多个空洞卷积层并行使用；然后对其输出进行加权求和，形成一个综合的特征图；之后使用和上一小节相同的注意力机制来强化特征信息；最后，通过一个1×1 卷积层调整通道数，将其与多尺度注意力级联特征的通道数保持相同，以便两部分的特征图相加。

图8 多尺度注意力模块Figure 8 Multiscale attention module

在多尺度注意力模块中以不同的速率进行卷积后产生的输出X1,X2,X3可以表示为

式中：i∈{1,2,3}；GIN为输入的特征图；⊗表示卷积；Rate 表示不同膨胀率的空洞卷积核。

输出GOUT表示为

式中：GOUT为输出特征图；{ }表示级联算法；Mc为通道注意力图；Ms为空间注意力图。

3）损失函数设计

实际采集的铁路道岔数据，向左行驶和向右行驶两类之间的差异并不总是特别明显。此外，道岔的图像都有轨枕等复杂背景，具有很高的相似性，仅从局部图像很难判断属于向左或向右行驶。因此，提高分类精度的关键是要定义道岔在向左和向右行驶时两类之间的差异性。损失函数设计基于度量学习差异性，其公式为

式中：max(·) 为类别特征之间的距离；f(A) 为目标样本的长度；f(P) 为提取的图像的长度；f(N) 为与A不一样的类别的长度；P为提取的图像特征；A为目标样本的特征；N代表与A不一样的类别特征；C为边界参数，是一个超参数；Lossr是锚点样本与负样本之间距离之差加上边界参数C（如果差值小于0，则损失为0），通过这种方式可以使相似的样本之间距离尽可能小于C，不相似的样本之间距离尽可能大于C。

2 实验

2.1 实验设置

我们将多个车载摄像头安装在列车的司机室内部或外部，所采集的铁路图像数据包括多个机务段不同运行时段信息和丰富的环境信息。随后对数据进行筛选、对视频进行抽帧和人工标注等处理，确保数据的可用性和有效性。

通过处理，我们建立了铁路轨道分割数据集“Railway-Railtack dataset”。标定了12 642 幅铁路轨道图像。实验将10 114 幅图像作为训练集，将2 528 幅作为测试集。同时建立了铁路道岔数据集“Railway-Switch dataset”。标定了6 464 幅道岔分类图像，其中向左行驶有3 564幅，向右行驶有2 900 幅。实验将5 170 幅图像作为训练集，将1 294 幅作为测试集。

2.2 铁路区域分割实验分析

2.2.1 客观指标分析

为了验证本文提出的铁路轨道区域与钢轨分割模型的有效性，将其和当前主流的分割模型（FCN[23],SegNet[24],MaskRCNN[25],DeepLabV3+[26]）在Railway-Railtack 数据集上进行对比试验。结果如表1 所示，可以看出：本文提出的方法在Railway-Railtack 数据集上像素准确率(pixel accuracy,PA) 可达95.28%、平均交并比(mean intersection over union,MIoU)可达93.76%，优于其他分割模型。

表1 不同模型在Railway-Railtack 数据集上的客观指标对比Table 1 Comparison of objective indicators of different models on Railway-Railtack dataset %

2.2.2 铁路区域分割结果

部分实验结果如图9 所示，其中每个案例从上到下依次为原始图像、真实标签、分割结果。结果表明，本文模型在阴影、反射、隧道环境和轨道切换场景等具有挑战性的场景下都能很好地发挥作用。

图9 铁路区域分割实验结果Figure 9 Experimental results of railroad area segmentation

图10 直观地显示了不同方法的比较结果，所有测试图像均来自Railway-Railtack。其中每个案例从上到下依次为原始图像、真实标签、FCN 结果、DeeplabV3+结果、本文模型的结

图10 Railway-Railtack 数据集上的比较结果Figure 10 Comparison results on Railway-Railtack dataset

果。从实验结果可以看出FCN 模型对钢轨的检测效果不好，存在钢轨之间的连通性被误判的现象，并且在视野近端的分割有缺失，在远端的效果也不佳；DeepLabV3+模型在道岔细节的处理效果不佳，也存在连通性被误判的现象；与之相比，本文模型的分割结果整体清晰，对于复杂的道岔钢轨环境和视野远端的区域也有良好的分割效果。

2.3 铁路区域重建实验分析

2.3.1 铁路区域重建方法客观指标分析

为了验证本文提出的铁路区域重建方法的有效性，将其与QI[9]、ZWEMER[10]和YANG[27]方法进行比较。为保证公平性，在实验中所有算法的铁路区域和钢轨分割部分都采用了本文中提出的铁路区域分割模型的分割结果。

对比结果如表2 所示，本文方法的PA 达到了98.67%，MIoU 达到了98.12%，获得了最好的性能。

表2 不同方法的性能量化客观指标对比Table 2 Comparison of objective indicators for performance quantification of different methods %

2.3.2 铁路区域重建结果

可视化实验的部分结果如图11 所示，每个案例从上到下依次为原始图像、分割结果、重建结果。可见本文提出的铁路区域重建方法在阴影、反射、隧道环境和轨道切换等场景下都能正确地对列车前方运行区域进行重建。但此方法受限于分割模型的识别精度，铁路分割后远端的部分钢轨信息丢失，故当前保留的轨道区域没有到达铁路图像视角的最远端。

图11 铁路区域重建结果Figure 11 Results of railroad area reconstruction

2.4 道岔分类模型客观指标分析

为了验证本文提出的铁路道岔图像分类模型的有效性，将其与当前主流的分类模型VGGNet-16[28]、BN-Inception[29]、ResNet50[30]和ResNeXt50[21]在Railway-Switch 的测试集上进行对比实验、消融实验，以客观评价模型的优劣。对比结果如表3 所示。

表3 不同方法的性能量化客观指标对比Table 3 Comparison of objective indicators for performance quantification of different methods %

从表3 中可以看出，本文方法可以达到最好的精度，与基准的ResNeXt50 相比，精度也提高了1.47%。可见，本文提出的铁路道岔图像分类模型在采光较差、极易与背景环境混淆的道岔图像中取得了良好的效果。

3 结语

本文针对铁路异物检测中的轨道区域检测进行研究，提出了一种面向铁路道岔情景下的列车轨道区域检测方法。首先，针对铁路左右钢轨之间难以匹配的问题，提出了一种基于编解码和信息融合的铁路区域分割模型，能够实现对铁路轨道区域和钢轨的分割，为列车前方运行区域检测提供了新的思路。接着，针对现有方法难以在轨道存有道岔情况下检测列车的实际运行区域的问题，提出了一种基于反向透视变换的铁路区域重建方法，能够准确保留列车前方的运行区域。实验结果表明，本文提出的方法在复杂环境下可达到较高的精度，PA 指标可达98.67%，MIoU 指标可达98.12%，具有在列车上应用的潜力。

然而，该研究提出的方法在较远区域对轨道区域的检测不完整，并且铁路轨道区域分割算法的速度还需要进一步提高。