改进U-Net模型的无人机影像在建道路分类

2024-01-05 11:15胡荣明魏青博竞霞廖雨欣任乐宽

遥感信息 2023年5期

胡荣明,魏青博,竞霞,廖雨欣,任乐宽

(西安科技大学测绘科学与技术学院,西安 710054)

0 引言

道路作为一种基础性设施,是我国交通系统的重要组成部分[1],获取及时而完备的道路数据信息在数字城市建设、经济城市发展和无人自动驾驶等领域发挥着重要作用[2]。无人机遥感技术的出现在道路等地表附着物精细化量测的发展中至关重要[3],当前,国家在道路建设上不断加大投资力度,呈现出逐年增长状态。在道路工程建设中,项目进度的管理是一个非常重要的环节,它直接关系到项目建设工期、成本控制以及质量目标的具体实现[4]。在道路建设项目的施工过程中,施工进度与实际管理进度间的不协调会影响工程的建设和效益。为了满足城市道路建设项目精细化管理的需要,利用无人机影像分类提取城市在建道路信息和检测分析道路建设情况,可以提高道路建设和管理的质量,为在建道路项目的施工进度监测提供参考依据,促进项目高效实施与完成,从而实现更好的社会效益和经济效益。

近年来,随着学者们采用深度学习方法实现遥感影像信息提取的研究不断深入[5],深度学习模型针对遥感影像道路信息提取领域产生了越来越多的应用研究[6]。目前,用于遥感影像语义分割的最佳架构之一是U-Net模型[7]。U-Net网络在编码部分借助两卷积层完成特征提取,之后使用一个平均池化层进行下采样操作[8]。ResNet网络则采用添加快捷机制的手段进而提升网络训练的深度,有效解决了梯度消失问题,同时加速了网络的收敛[9]。Zhang等[10]提取ResNet和U-Net模型的优势,提出针对道路提取应用的深度残差U-Net模型,优化了深层模型的训练,但该方法受训练数据集的影响较大,且单一模型提升的精度有限。王卓等[11]提出基于U-Net改进的深度神经网络,借助Batch Normalization与Dropout解决训练中过拟合现象,但对建筑密集、阴影及树木遮挡区域的提取效果欠佳。葛小三等[12]提出基于DeeplabV3+语义分割的深度学习提取道路的方法,借助融合多孔空间金字塔池化的方法,提高了道路边界的划分性能,提取结果F1分数达到87.27%,但模型结构精度提升有限。杨佳林等[13]提出结合上下文信息与注意力机制的U-Net道路分割模型,提升网络对于道路边缘区域的分割效果,但召回率仅84.72%,模型泛化能力需要提高。何哲等[14]提出采用混合尺度注意力的U-Net网络提取道路方法,增强对跨度大、狭窄道路的分割效果,但模型交并比为65.60%,仍有待研究提高。综上,尽管深度学习具有极强的局部信息提取能力,但在遥感影像道路提取领域中,当前的特征提取结构、注意力机制与空间金字塔池化模块仍有改进的余地,而在建道路往往还具有背景复杂、道路遮挡多、变化程度大等特点,因此建设完成的道路提取模型在无人机影像中提取在建道路适用性较差,不可直接迁移,需要进一步研究与改善。

针对以上问题,本文提出一种基于改进的U-Net无人机影像在建道路提取方法,该方法以U-Net模型为基础,在下采样阶段逐层用多尺度骨干网络结构(Res2net)模块保存细节信息及更深层次的特征信息;同时,引入轻量级双注意力机制(convolutional block attention module,CBAM)并联结至解码各层次阶段,沿着浅层特征的通道维度和空间维度,并行对输入的特征图进行重新校准,在抑制背景信息的同时,增强在建道路信息的关注程度。另外,加入改进的密集空洞空间金字塔池化模块(Dense ASPP),获取多尺度特征进而增强局部模糊特征的识别能力。本文改进方法有效将在建道路高维度与低维度信息融合,提升道路边缘区域的分割效果。

1 数据来源与预处理

1.1 数据来源

本文使用的无人机影像采集于陕西省西安市欧亚三路至欧亚六路区间的广运潭大道。采集数据时,欧亚三路至欧亚六路区间的道路处于施工阶段,无人机的两个飞行时段分别为2021年7月25日和8月1日,数据采集平台为大疆精灵4型旋翼无人机,获取数据期间天气晴朗,地面风速小于3级,阳光充足,适于无人机航拍。无人机飞行参数设置为高度150 m,航向重叠度和旁向重叠度均为80%。

1.2 在建道路结构层分类

城市道路工程中,依据道路工艺结构与建设阶段,在建道路结构层主要可划分为3层:土基层、基层、面层[15]。面层位于整个路面结构的最上层,其表面具有良好的抗滑性和平整度。路基层位于面层之下,土基之上,强度较高,刚度较大,并有足够水稳性。土基层是道路的基础,位于基层之下,是经过开挖或填筑而形成的土工构筑物。同时,在道路影像中,工程材料堆放往往会导致在建道路面层、基层和土基分类错误,导致提取结果出现较大误差,因此,将其分类作为单独类别进行提取分析。各道路阶段类别对应的建设材料及影像特征如表1所示。

表1 城市道路各建设阶段类别对应材料及影像特征

1.3 数据处理与数据集创建

将无人机采集数据整理后,使用Agisoft Metashape Professional数据处理软件,对原始的航拍数据进行处理得到研究区DOM数据。两期影像的空间分辨率分别为3 cm、4 cm,有红、绿、蓝3个通道。处理获取的影像表明,研究期间包括道路土层、基层、面层各阶段的施工情况,同时,在建道路部分道路形状复杂,包括工程用料、施工器械、建设废料等的遮盖干扰,较好地反映了真实工程环境下在建道路的特点。

本文在建道路分类模型属于监督学习类型,训练样本为人工标注的语义图像,采集生成影像不具有标签和语义特征,借助ArcGIS工具进行分类影像语义标注,将影像裁为512像素×512像素的图像块,标注0代表背景值,1代表道路面层,2代表在建基层,3代表在建土层,4代表工程材料,制成与之一一对应的真实道路标签,获得共3 360幅影像数据,根据8∶1∶1比例划分为训练集、验证集与测试集。

2 模型构成

本文模型的编码器单元采用Res2net网络获取图像特征,引入CBAM双注意力机制,实现特征通道维度和空间维度的平衡。利用Dense Aspp模块融合不同区域特征,获取更加丰富的上下文信息,增强模型的分割性能,将注意力机制模块的输出特征进行上采样并与特征提取网络最后阶段特征信息拼接,采用卷积操作进行特征融合与通道调整,最后经过上采样操作和像素分类运算获取预测图像,对图像进行分类。图1为改进U-Net在建道路提取分类模型结构示意图。

图1 改进U-Net城市在建道路提取分类模型结构

2.1 特征编码模块

由于建设道路地物种类较多且数量庞大,在建道路无人机影像整体与局部特征信息结构繁杂,传统U-Net模型借助23层卷积结构,不能充分提取在建道路无人机影像中的地类间深度信息,而Res2net结构可以在更细粒度级别上提取捕捉多尺度特征,提取建设道路的深度语义信息。为了提取保存每层次细节信息及更深层次的特征信息,在模型下采样阶段,本文使用Res2net模块逐层替换U-Net编码层,进而基于50层卷积结构将最深层特征图下采样倍率加深至32。同时,用更小的滤波器组替换原有通道的3×3卷积层,以类残差的层次化方式连接增加输出特征所能代表的尺度的数量,使感受野能够在更细粒度级别上的变化捕获细节和全局特性。

2.2 卷积注意力模块

为了保证模型的运行速度和防止计算机显存溢出,如图1所示,本文将CBAM模块桥接与Res2net各阶段层数据模块,按序于通道和空间维度借助分派计算权重的方法强调在建道路特征,在减轻背景数据影响的同时,提高网络提取分类预测能力,保障模型运行的稳定性。CBAM结构最初于通道维度对表层特征数据同时采用全局最大池化及全局平均池化操作,针对特征矢量借助全连接层分配权重数据,增强通道维度特征信息,之后于空间维度针对通道域获取的特征矢量完成最大池化和平均池化压缩,获得二维特征矢量,采用卷积分配权重,进行空间维度在建道路特征信息数据增强。CBAM结构内部运行与变化见图2。

图2 CBAM注意力机制

2.3 金字塔池化模块

无人机影像中建设道路不同阶段间的边界情况复杂零散,同时模型编码器增加了提取特征信息深度,原U-Net解码器无法有效满足特征信息上采样计算与拼接要求,不能充分获取建设道路边界细节信息。本文在特征解码部分加入密集空洞空间金字塔池化结构,见图3,为满足编码器第4层Res2net结构数为6的情况,将扩张卷积块增至5个,每个扩张卷积块结构一致,膨胀率不同。扩张卷积块均具有两层卷积,首层是普通卷积层,针对输入数据完成卷积获取特征信息,可保证输出通道数恒定,有效控制网络模型大小。第2层卷积是扩张卷积层,本文扩张率增加,选取3、6、12、18、24,对影像进行特征提取,扩张卷积块的扩张率为逐层提高,见图3。前层扩张卷积块的输出特征信息皆与预特征信息堆叠后进入下层卷积块,最终获取覆盖范围更广且信息密集的在建道路特征。

图3 密集空洞空间金字塔池化结构

2.4 交叉熵损失函数

损失函数用于量度预测值与真实值之间的差异程度,本文改进U-Net的道路提取模型采用交叉熵损失函数(cross entropy loss)进行训练,表达如式(1)所示。

(1)

在遥感影像在建道路语义分割中存在一个问题,在建道路像素数量远小于背景像素数量,就会使得模型严重偏向于背景,导致分割效果较差。针对这种情况,本文采用交叉熵损失函数加入正则化惩罚项作为损失函数来解决样本分布不均衡的问题。

3 实验与分析

3.1 实验环境与参数设置

为验证该算法对无人机影像城市在建道路提取的有效性,利用所制作的标签数据集对网络进行训练。实验硬件CPU为12核Intel(R) Xeon(R) Platinum 8255C CPU @ 2.50 GHz,GPU为NVIDIA GeForce RTX 2080Ti,11 GB显存,开发环境为Windows下pytorch1.10.0、cuda11.3、python3.8。在模型训练中,初始学习率设置为0.001,最大迭代次数150次,参数在逐层优化中达到最优,损失值降为0.05,此时完成训练,通过训练计算的模型参数进行预测,获取分类结果图。

3.2 精度评价指标

为定量分析模型提取在建道路的性能,选取总体分类精度(OA)、F1分数(F1-score)、交并比(IoU)、宏F1均值(Macro-F1)、平均交并比(MIoU)和Kappa系数来评估改进的U-Net模型与其他主流语义分割模型的特性。IoU为每类上真实值和预测值两个集合交集与并集的比值,MIoU用于评价预测对象与目标对象的匹配比例[16]。OA为所有像素分类结果与其对应标签的实际类型相同的概率。F1-score是衡量各类别精确度(precision)与召回率(recall)的综合评价指标,反映模型对正负样本的识别和区分能力[17]。Macro-F1是对各类别F1-score的平均,用于评价多分类问题精度,不受数据不平衡影响[18]。Kappa系数为分类与完全随机分类产生错误减少的比例。

3.3 实验结果及分析

1)消融实验。为验证本文所设计改进U-Net模型的有效性,以传统的U-Net模型为基础,设计了将U-Net模型特征编码模块逐层更换为Res2net结构的实验a,进而设计在实验a编码器与解码器间桥接CBAM注意力机制的实验b,最后设计了在实验b的解码模块引入密集连接的Dense ASPP结构的实验c,借助常用语义分割指标进行评价分析,消融实验结果见表2。

表2 消融实验结果分析 %

根据表2中数据可知,相较于传统U-Net,实验a模型的平均召回率、平均交并比及F1宏平均分别提高了13.81%、5.68%和7.04%,模型精度提升效果显著,表明采用Res2net结构替换传统U-Net模型编码阶段能够更有效,更深层次提取影像中在建道路整体与局部特征,提升分类结果的准确性。相对于实验a,实验b的平均精确率与F1宏平均分别提高了1.22%和1.01%,表明桥接CBAM模块于编码器和解码器突出了在建道路特征,抑制背景数据影响,增强了网络分类预测能力。实验c各项评价指标均优于实验b,说明解码部分引入Dense ASPP增强了在建道路复杂边界的分割能力,将模型提取特征有效地保存并表征,同时实验c较其他实验指标均为最优,表明了本文改进U-Net模型的先进性。

2)不同分割方法性能分析。为了进一步验证改进U-Net模型对在建道路各阶段分类效果,将本文方法与经典U-Net、FCN、DeeplabV3+等网络进行训练比较,训练成果的各项参数评价见表3。

表3 在建道路分割方法对比

由表3可知,在MIoU方面,传统U-Net算法的平均交并比为77.64%,对比模型中平均交并比较高的有DeeplabV3+(78.01%)、FCN(77.70%)、HRnet(75.96%),本文改进U-Net模型的平均交并比为86.15%,较传统U-Net、DeeplabV3+、FCN和HRnet模型分别提高了8.51、8.14、8.45和10.19个百分点。在Macro-F1方面,传统U-Net算法F1宏平均为82.89%,对比模型中F1宏平均较高的有DeeplabV3+(87.05%)、FCN(86.06%)、HRnet(84.28%),本文改进U-Net模型的平均交并比为91.65%,较传统U-Net、DeeplabV3+、FCN和HRnet模型分别提高了8.76、4.6、5.59和7.37个百分点。同时,在平均召回率和Kappa系数方面,本文改进模型均优于传统U-Net、FCN、HRnet和DeeplabV3+等模型。总体来说,本文改进U-Net模型对在建道路各阶段分割精度更高,模型的可靠性和稳定性得到提升。

选择7种模型在测试集随机选取部分影像进行可视化展示,见图4。根据不同网络分割结构比较可以看到,第1列影像中,本文模型对在建道路面层、小部分基层与土层及工程材料识别清晰,没有出现其他模型的空洞情况,第2列、第3列影像表明针对大面积的在建道路面层、基层、土层,本文模型分割边缘规整,没有出现其他模型的较大凸出或凹陷现象。

图4 在建道路模型分类结果可视化

第4列至第6列影像表明本文模型对工整、零散、复杂堆放的工程材料的分割上没有出现其他模型的漏分错分现象。可视化结果进一步表明,本文改进的U-Net模型能有效均衡空间通道两维度,捕捉信息间的总体相关情况,抓取上下文特征数据,增强了特征信息表现力,加强了模型学习性能和摒除干扰能力,提高了网络的精度和可靠性。

为了更准确定量分析本文改进的U-Net模型的性能,对本文模型及对比模型在道路面层、基层、土层、工程材料和背景数据的分割能力进行对比分析,结果见表4。

表4 在建道路各类别对象分割结果 %

对比表4中道路面层、基层、土层、工程材料及背景在各方法的IoU及F1分数可以看出,道路面层的交并比及F1分数最高,背景、道路基层、土层次之,工程材料最低。同时,虽然整体遥感影像中背景占比最大,但损失函数正则化惩罚项有效抑制了面积对类别分类精度的影响,保证了模型对道路类别分割的准确性。从实验结果整体比较分析可得,本文模型在道路面层、基层、土层、工程材料和背景数据的交并比、F1分数皆优于其他对比网络,说明了本文模型对提升在建道路各工艺阶段的分类精度具有良好的效果。

根据不同模型的分割效果对比可知,本文改进的U-Net方法相较于FCN、DeeplabV3+、Segformer等方法来说,对道路各工艺层边界的识别分割程度更高,对不同尺寸的同类对象的辨识力更强,有效捕捉获取多层次维度信息特征,将地物边缘信息恢复得更加详细完整。同时,本文模型相较于传统U-Net网络,存在的漏分及错分现象更少,对道路各层的分割效果更佳。总体的比较进一步证明了加入CBAM注意力机制,引入特征提取Res2net模块、Dense Aspp结构及加权损失函数的必要性。

4 结束语

本文将深度学习卷积神经网络应用于无人机影像在建道路分类提取,为解决无人机影像背景驳杂,城市在建道路分类易被相似目标、建设设施等信息干扰的问题,设计了改进的U-Net网络架构。在此基础上,选取道路面层、道路基层、道路土层和工程材料共4类典型在建道路工艺层,进行7组不同分类模型的实验对比。本文改进的U-Net模型的平均召回率为96.05%,平均准确率为88.20%,平均交并比为86.15%,F1宏平均分数为91.65%。通过对比实验证明,本文改进的U-Net深度学习网络在高分辨率无人机影像分类提取中具有较强的可行性和准确性,可自动化提取建设道路各阶段信息,为开展无人机影像在建道路施工进度监测提供了一种高效的智能解译方法。同时,由于本文采用无人机影像波段数有限,特征学习丰富度受到了一定的限制,且道路进度监测应用需进一步加深量化分析等研究,后续会尝试补充多通道或多源数据增加信息特征,提高模型对在建道路各阶段分类效果以及提升模型在道路进度监测项目中的精度和可靠性。