基于立体R-CNN的自动驾驶中的路障识别与定位

2024-04-24 14:04刘启卢林朱兆旻
时代汽车 2024年8期
关键词:自动驾驶深度学习

刘启 卢林 朱兆旻

摘 要:基于深度学习的自动驾驶技术是目前最为先进和主流的自动驾驶技术之一,它通过应用深度学习算法来实现对驾驶场景的感知、路径规划、行为决策和运动控制,极大地提高了自动驾驶汽车的安全性和可靠性。文章提出了一种新型的立体区域卷积神经网络模型对自动驾驶中的路障的识别与定位进行研究。结果显示,文章提出的方法在图像识别精度和速度上要优于Mono3D和VeloFCN等其它模型。

关键词:深度学习 R-CNN 自动驾驶 路障识别与定位

1 引言

如同互联网工业革命,汽车的驾驶模式也正在经历着一场变革,驾驶方式由传统的人工操作向无人化方向演进。早在上世纪80年代美国国防高级研究计划部署 (DARPA)就提出了自动驾驶的概念[1]。国内以百度为首的公司和高校也在蓬勃发展着自动驾驶[2]。自动驾驶具有非常大的发展前景和意义,它可以增强道路安全,缓解交通拥堵,提高车辆通行效率,还可以缓解停车难的问题,缩短消费者停车和取车的时间,另外它还能减少空气污染,改善环境质量。美国机动工程师协会(SAE)对自动驾驶做了0-5级分级[3]。由于四级及以上对环境感知的准确性和精确性要求很高,甚至超出了人类的认知水平,所以还需要做更大的努力去发展自动驾驶技术。自动驾驶包括环境感知、智能决策和控制执行三个阶段,其中环境感知是最基础的部分。无人驾驶中感知部分的主要功能涉及计算机视觉领域研究的相关问题,适合采用CNN(Conventional neutral network,卷积神经网络)[4]技术。

由于计算机软硬件技术在近几年得到了巨大的发展,因此自动驾驶中的路障识别与定位问题的解决也有了很大的进展。从最开始的端到端[5]的检测方法到后来的两阶段检测方法再到现在的一阶段检测方法,随着计算机网络速度和算力的提高,实验所达到的路障识别速度和精度越来越好。但相对于自动驾驶所要达到的实时速度和超高的精度来说,未来还有很大的发展空间。本文主要工作是针对自动驾驶中路障的识别与定位进行研究,扩展了RGB[6]等人提出的R-CNN(Region Conventional neural network)和faster R-CNN模型,提出了立體区域卷积神经网络(Stereo R-CNN)模型,其不仅可以用来识别自动驾驶中的障碍物,还可以进一步定位障碍物的位置。

2 CNN介绍

卷积神经网络(Conventional neural network, CNN)是一种适合使用在连续值输入信号上的深度学习模型,主要仿造生物的神经元机制设计。在2012年CNN一举打破了ImageNet这个图像识别竞赛的记录后,计算机视觉领域发生了天翻地覆的变化,各种视觉任务都放弃了传统的方法,启用CNN构建新的模型。经典CNN的模型结构如图1所示:

这个卷积神经网络有11层,从输入端开始分别为输入层和归一化层,接着是5个卷积层,然后连接着3个全连接层,最后是输出层。在5个卷积层中,前三层中采用2×2步长和5×5内核的卷积层,在后两层中采用3×3为内核大小的无步长卷积层,即strides=1。在CNN模型基础上,多个网络模型相继被提出,并且应用于在自动驾驶技术中的图像识别与分割模块,如区域卷积神经网络(R-CNN)、Fast R-CNN、Faster R-CNN等。

3 立体区域卷积神经网络(Stereo R-CNN)

卷积神经网络在自动驾驶中将道路中的障碍物简化成2D目标并做出识别。本节将采用立体区域卷积神经网络模型,其不仅对3D障碍物做识别还会进一步定位。首先,使用权重共享的残差网络(ResNet-101)和特征金字塔网络(FPN)作为骨干网络,提取左右图像的一致特征。其次,将特征输入连接到立体区域候选网络(Stereo RPN)中,计算IOU (Intersection over Union, 交并比)值。数据集分为正负标签。经过立体RPN之后,得到相应的左右提案对。将RoI Align[7]分别应用于金字塔级别的左右特征图。左和右RoI特征被连接并馈送到两个连续的全连接层,以提取语义信息。经过ROI Align之后,添加另外两个分支,一个用来执行关键点的预测,一个用来回归精确的2D框,两个分支的输出形成用于3D框估计的稀疏约束。立体区域卷积神经网络模型的网络结构如图2所示:

在自动驾驶中,车辆对周围环境的感知是非常重要的。激光雷达能提供高精度的3D点云,但密集的3D信息就需要借助于双目或多目摄像头来获取。本文接下来用双目摄像头验证立体图片和位置的对应关系。按照相机标定得到内外参数和单应矩阵;根据标定的结果对原始图像进行矫正,矫正后的两张图像位于统一平面且互相平行,然后对矫正后的图像进行像素点的匹配,最后根据匹配结果计算每个像素的深度,从而获得深度图。把同一场景在左右视图上对应的像点匹配起来,得到视图差,根据公式计算出深度信息,进一步精确3D障碍物的位置。双目摄像头实物图及矫正后的示例图如图3所示:

双目摄像头的测距原理如图4所示:

假设两个摄像头间距为,空间中一点到两个摄像头所成图像上的偏移为,为视差,即从间隔一定距离的两个点上观察同一个目标所产生的方向差异。摄像头的焦距为,根据相似三角形原理:

可以看出视差与三维空间上的点到投影中心平面的距离成反比;距离平面越近的目标,视差越大;距离平面越远的目标,视差越小。因此,只要知道三位空间中某一点的视差,就可以知道该点的深度信息。本实验使用了双目摄像头做了图片定位的验证,其中双目摄像头的标定、矫正和匹配主要是在amcap和VS2019上进行。

4 实验结果与分析

本实验硬件环境的处理器为Inter(R) Core(TM) i5-9400 CPU @2.90GHz、24GB内存和RTX3090显卡。使用的是公开的KITTI数据集[8],KITTI数据集是由KIT和TTIC在2012年开始的一个合作项目,其网址为http://www.cvlibs.net/datasets/kitti/。数据集包括真实室外场景下的RGB双目图 像和雷达点云数据,其中有7481对训练图像对和7518对测试图像对。我们用搭建好的网络来测试公开数据集KITTI。本实验所用的是3D数据集,因此需要激光雷达数据、图像数据、标注数据以及标定校准数据。模型检测结果如图5所示。

圖片左边从上到下分别是左图像、右图像、右边是鸟瞰图。使用鸟瞰图平均精度(APbv)和三维空间平均精度(AP3d)来评估3D检测和定位性能,结果如表1所示:

从表中可以看出,stereo R-CNN的精度优于Mono3D和VeloFCN模型。本实验还测试了Stereo R-CNN模型的检测性能与其它模型的对比,实验结果如表2所示:

由表可知,Stereo R-CNN模型检测速度优于CNN等模型。

通过表1和表2的结果,可以发现本文提出的方法在图像识别精度和速度上要优于Mono3D和VeloFCN等其它模型,更适合运用于自动驾驶中。

5 结语

为了实现自动驾驶中的障碍物的识别与定位,本文提出了一种立体区域卷积神经网络模型来进行实验与验证。实验结果表明立体区域卷积神经网络具有超高的识别精度与速度,优于Mono3D和VeloFCN等其它模型,适合运用于自动驾驶中。在今后的研究中,会进一步将立体区域卷积神经网络和YOLOv7结合起来,做出更加快速和精准的障碍物的识别与定位。

基金项目:广西省自然科学基金项目(2021GXNSFAA220048)。

参考文献:

[1]Badue C, Guidolini R, Carneiro R V, et al. Self-driving cars: A survey[J]. Expert Systems with Applications, 2020: 113816.

[2]任柯燕,谷美颖,袁正谦,袁帅.自动驾驶3D目标检测研究综述[J/OL].控制与决策:1-24[2022-10-18].DOI:10.13195/j.kzyjc.2022.0618.

[3]石娟,田晓笛,王建培.自动驾驶分级方法及测试技术[J].汽车工程师,2018(09):18-21.

[4]Wanli Ye,Wei Jiang,Zheng Tong,Dongdong Yuan & Jingjing Xiao. Convolutional neural network for pothole detection in asphalt pavement,Road Materials and Pavement Design,(2021)22:1,42-58.

[5]BOJARSKI M,DEL TESTA D,DWORAKOW-SKI D,et al. End to End Learning for Self-Driving Cars[M/OL]. arXiv,2016[2022-08-11].

[6]LI P L,CHEN X Z,SHEN S J.Stereo R-CNN based 3D object detection for autonomous driving [C]. IEEE International Conference on Computer Vision and Pattern recognition. Piscataway: IEEE,2019:7636-7644.

[7]K. He,G. Gkioxari,P. Dollar,and R. Girshick. Mask R-CNN[C]. IEEE International Conference on Computer Vision (ICCV),2017,pages 2980–2988.

[8]Andreas Geiger,Philip Lenz,Christoph Stiller and Raquel Urtasun,Vision meets Robotics ;The KITTI Dataset. International Journal of Robotics Research (IJRR),2013.

猜你喜欢
自动驾驶深度学习
汽车自动驾驶的发展
LTE—V车路通信技术浅析与探讨
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
特斯拉默默更改了官网上“自动驾驶”的说明
基于深度卷积网络的人脸年龄分析算法与实现
特斯拉中国官网不再提“自动驾驶”