顾及多尺度监督的点云语义分割

2024-03-25 06:50文阳晖杨晓文况立群薛红新
激光与红外 2024年2期
关键词:解码类别语义

文阳晖,杨晓文,张 元,韩 燮,况立群,薛红新

(1.中北大学,计算机科学与技术学院,山西 太原 030051;2.山西省视觉信息处理及智能机器人工程研究中心,山西 太原 030051;3.机器视觉与虚拟现实山西省重点实验室,山西 太原 030051)

1 引 言

近年来,随着无人驾驶、计算机视觉、人工智能等领域的快速发展,深度传感技术日益成熟,三维点云的语义分割在计算机视觉领域引起了越来越多的关注[1]。伴随大型三维点云数据集的出现以及计算机硬件的更新换代,在点云语义分割领域中基于深度学习的算法逐步占据主导地位[2]。

基于深度学习的点云分割模型,大多采用编码器-解码器架构,网络仅由最后一层中的点云语义标签监督,而其他层中的隐藏单元缺乏直接监督,无法提取具有明确语义信息表示的特征,引入多尺度监督对于点云分割任务是十分必要的。在二维视觉领域中,Kirillov等[3]提出PointRend,对低分辨率图像进行分割,迭代地对输出结果采用上采样并微调和再预测,直至获取最终结果,实现对不同尺度的监督。Huang等[4]提出Unet3+,在每个解码层后都连接了中继监督层,将特征上采样至原图大小,利用真实标签统一进行监督,增强网络捕获边界细粒度结构的能力。在三维视觉领域中,Xu等[5]提出了一种场景描述符,学习表示点云场景中存在的类别,监督网络最中间层,过滤不属于场景中的类别,指导点级语义分割。

本文提出一种以SCF-Net为基础融合多尺度监督的点云语义分割网络(Multi-scale Supervision SCF-Net,MSS-SCF-Net),将点云类别预测任务分解成一系列点云感受野类别预测任务,在编码阶段利用类别信息生成模块(Category Information Generation Module,CIG)生成类别信息,在解码阶段通过类别信息预测模块(Category Information Prediction Module,CIP)结合浅层以及深层编码特征对各个尺度的点云进行预测,类别信息作为标签监督隐层特征学习,增强对点云特征的挖掘能力,提升网络整体分割精度。

2 相关研究

近些年来,国内外研究人员提出了众多基于深度学习的点云分割网络,主要包括三类方法:基于投影的网络[6-7]、基于体素化的网络[8-9]和基于点云的网络。基于投影和基于体素化的网络由于将点云转化为其他形式的数据,导致数据额外损失,分割效果不佳。基于点云的网络能够直接对点云进行语义分割,2017年,Qi等人[10]提出的PointNet网络是该类方法的开拓者,能够直接在点云数据上进行特征学习,利用共享感知机捕获逐点特征,但忽略了局部特征的学习。为了加强局部特征提取能力,Qi等人[11]在PointNet的基础上提出了PointNet++,采用分层思想,逐步扩大感受野进而聚合局部特征。2019年Zhao等人[12]提出了PointWeb,通过自适应特征调整模块在每个成对的3D点之间交换信息,增强局部邻域的表示能力。2021年,Fan等人[13]提出SCF-Net,将点云以极坐标形式表示,利用双距离注意力池化模块,基于几何距离与特征距离自动学习有效的局部特征,在室内场景的语义分割中取得了很好的效果。2023年,敖等人[14]提出CsegNet,利用逐点卷积和边缘卷积提取局部特征,有效改善边缘不平滑现象。以上网络模型的提出,为后续基于深度学习的点云语义分割模型指引了方向,具有重要的理论研究价值。

3 本文方法

3.1 结合多尺度监督和SCF-Net的神经网络

本文方法以SCF-Net为主干网络,采用带有跳层连接的编码器-解码器架构,为了避免随机采样丢弃关键信息,替换为最远点采样,能够覆盖整个点云,增强网络对局部特征的提取。

网络具体结构如图1所示。网络的输入是大小为N×D的点云,其中N为点云个数,D为特征维数。首先通过全连接层将特征维数统一为8,逐步利用五个编码层对特征进行编码,使用最远点采样算法对点云进行下采样,利用SCF模块来学习上下文特征。同时,点云的标签信息也被输入至网络中,大小为N×C,C为类别数目。输入的标签信息依次经过CIG模块和最远点采样处理。CIG模块用于获取点云感受野中的类别信息,类别信息作为标签监督指导解码阶段点云特征提取。类别信息生成与编码阶段特征提取共享下采样,生成的目标类别信息能精确地记录感受野的类别成分。接下来,使用五个解码层对特征进行解码。采用最近邻插值进行上采样,利用跳跃连接与编码层生成的中间特征进行拼接,将拼接后的特征输入到共享MLP。编码特征通过五个解码层逐渐恢复至原始分辨率。此外解码器中每层点云特征将输入到类别信息预测模块(CIP)以获取预测类别信息,利用编码阶段生成的目标类别信息通过分层监督来指导预测,实现点级语义标签从全局到局部、从粗到细的预测。最后使用三个连续的全连接层预测最终标签,输出大小为N×C的分割预测结果。

3.2 类别信息生成模块

在图像领域中,多尺度监督的应用[4,15]通常是将解码器中每一层生成的特征上采样到原始图片的分辨率大小,添加辅助分类器,计算特征与真实标签产生的额外损失。然而,由于点云的无序性,无法像图像那样与下采样后的数据具有固定的映射关系,直接将隐层点云上采样至原始分辨率与真实标签计算损失,会对隐层特征引入错误的监督,导致网络性能的下降[16]。

由于无法直接将解码器每层生成的点云特征上采样到原始分辨率,对下采样后的点云提供标签是非常重要的。当点云经过下采样后,点云的标签仅包含自身所对应的类别是不够的,还需要体现邻域内其他点的类别。因此,本文提出了一种类别信息生成模块,用于表示采样点云感受野内的所有类别。

(1)

其中,li是输入点云pi的标签。编码器第k层的类别信息向量可以通过公式(2)从k-1层推得而出。

(2)

图2 类别信息生成模块

将前一层的类别信息向量输入到类别信息生成模块,得到后一层的类别信息向量,重复该过程,直至生成编码器最后一层点云的类别信息向量。生成的向量将用于解码阶段,作为语义标签监督指导解码器以提取更加具体、明确的语义信息,提升网络分割性能。

3.3 多尺度监督

在本文的方法中,将解码阶段的点云类别预测任务分解成一系列点云感受野类别预测任务,除解码器最后一层,剩余层都需要预测当前阶段点云的感受野类别。随着解码层数的增加,点云感受野逐渐减小,对于解码器的最后一层,感受野只含有自身点,感受野类别预测转化为最终的语义类别预测。

为预测点云的感受野类别,本文设计了类别信息预测模块。如图3所示,解码特征dk对应于编码特征ek,ek-1相对于ek是邻近的浅层编码特征,拥有更加丰富的细粒度局部结构信息。ek+1相对于ek是邻近的高层编码特征,拥有更多的高层语义上下文信息。类别信息预测模块如图3所示,通过MLP和最远点采样将邻近浅层编码特征ek-1与解码特征dk对齐,利用MLP和最近邻插值将邻近高层编码ek+1与dk对齐。将对齐后的浅层和高层特征拼接后输入MLP,得到融合了浅层几何信息和高层语义信息的增强特征fk,定义如式(3)所示:

图3 类别信息预测模块

fk=MLP(FPS(MLP(ek-1))⊕NI(MLP(ek+1)))

(3)

(4)

利用邻近浅层和高层编码特征能够进一步改善点云感受野类别的预测精度。

(5)

除了解码器的最后一层,剩余层都通过公式(6)计算本层类别信息向量预测所产生的损失函数:

(6)

式中,N表示编码器第k层中的采样点云数;C表示类别数。

(7)

对于解码器的最后一层,将输出得到的特征d0输入到三个连续的全连接层,并使用softmax函数来预测最终语义类别,使用常见交叉熵损失函数来监督网络最终输出的语义标签。网络的整体损失函数如式(8)所定义:

L=Ln+Lc

(8)

整体损失函数由两部分构成,Ln表示语义分割中常见交叉熵损失,Lc表示类别信息预测损失。

4 实验结果与分析

4.1 网络参数设置

算法实验环境如下:硬件为RTX3090 24GB GPU,软件为UBUNTU16.04操作系统,CUDA11.1,TensorFlow 1.15.4。网络训练参数如下:使用初始学习率为0.01的Adam优化器训练网络,批处理大小设置为4,网络训练100个epoch,每个epoch后学习率下降5 %,最近邻K大小为16。

4.2 实验数据集及评价指标

为了验证所提方法有效性,在两个大规模语义分割数据集S3DIS和SemanticKITTI上进行对比验证。

S3DIS数据集是一个大型室内点云数据集,由斯坦福大学从室内工作环境中采集得到,包含6个区域,由271个房间组成。总计扫描约2.73亿个点,每个点包含XYZ坐标信息以及RGB颜色信息。

SemanticKITTI是一个大规模室外场景数据集,通过机载激光扫描系统采集,拥有复杂的室外交通场景,包含22个点云序列,总计45.49亿个点,含有19个有效类别。

语义分割的性能评估指标采用总体精度(OA)、平均交并比(mIoU)、平均类精度(mAcc),可定义为:

(9)

(10)

(11)

式(9)、(10)、(11)中,N为类别数;n为真实类别;m为预测类别;pnn为类别预测正确点数;pnm表示假负例点数;pmn表示假正例点数。

4.3 实验结果及分析

4.3.1 对比实验

(1)S3DIS

在S3DIS数据集上采用6折交叉验证方法,总体精度、平均交并比和平均类精度作为度量指标。表1为本文方法与其他方法的度量指标对比。由表1可知,本文方法在总体精度、平均交并比和平均类精度优于其他方法,并且在13个类别中的5类别(窗户、椅子、沙发、木板和杂物)取得最佳性能。与RandLA-Net相比,本文方法在mIoU提高了3.1 %,与基础网络SCF-Net相比,mIoU提高了1.5 %,且在12个类别中的IoU均有提升。

表1 不同方法在S3DIS数据集上的分割精度对比(单位:%)

图4为本文算法与SCF-Net网络的可视化分割结果图。其中图4(a)为输入点云,图4(b)为SCF-Net方法的分割结果,图4(c)为本文方法的分割结果,图4(d)为参考标准。从上至下依次为房间1、房间2和房间3。可以看出,相较与SCF-Net,本文方法在物体的细节处取得了更好的分割效果。在房间1中,SCF-Net将桌腿错误的划分为了杂物,圆柱与墙面连接处划分不够平滑,造成了圆柱的局部丢失;在房间2中,SCF-Net对于门框与墙之间的边界划分的不够清晰,且书架中的局部位置出现分割错误;在房间3中,SCF-Net错误地将颜色相近的杂物划分为了桌子。而本文方法在以上位置取得了相对较好的分割效果,说明多尺度监督的引入加强了网络局部信息挖掘能力,提升了各类目标的轮廓分割能力,对于物体连接处的分割更加平滑。

图4 S3DIS数据集分割结果可视化对比

(2)SemanticKITTI

在SemanticKITTI测试集上的对比实验结果如表2所示。从表2可以看出,本文方法在点云的平均交并比上,相比基于投影的主流方法RangeNet53++提升了3.0 %,相较于基础网络SCF-Net提升了1.9 %。SCF-Net采用随机采样处理大规模点云数据,利用SCF模块学习空间上下文特征,逐步扩大点的感受野范围,防止丢失关键点信息。但对于稀疏性较大的SemanticKITTI数据集,随机采样无法避免丢失物体边缘信息,导致网络出现错误分割。本文方法采用最远点采样保留物体边缘的完整,通过对多个尺度点云特征进行监督学习,促使隐藏层学习到的特征易区分、更具鲁棒性,增强网络对物体边缘的分割能力。

表2 不同方法在SemanticKITTI数据集上的分割精度对比(单位:%)

将SCF-Net与本文MSS-SCF-Net在SemanticKITTI的验证集上进行可视化结果对比,如图5所示。可以看出,SCF-Net错误地将行人识别为骑脚踏车者,而又将骑脚踏车者辨别为行人以及骑机车者,这三者在外形上极其相似且体型较小,导致未能正确识别。并且对于形状类似的植被和栅栏,SCF-Net也容易将其混淆。而本文方法对于上述情况均有改善,能够正确识别行人与骑机车者这些小目标物体。这得益于多尺度监督的引入,加强网络对隐层特征的学习,提升对小目标物体及相似物体的识别能力。

图5 SemanticKITTI数据集分割结果可视化对比

4.3.2 消融实验

为了定量评估多尺度监督和最远点采样的有效性,对这两种方法不同组合进行了消融实验。选取S3DIS数据集区域5为测试集,其他区域为训练集,结果如表3所示。(1)基线方法为SCF-Net,其采用的点云采样算法为随机采样,在区域5的mIoU为63.4 %。随机采样算法的使用可能会导致某些关键点特征丢失,使得网络对物体局部描述能力下降。(2)将基线方法的随机采样替换为最远点采样后,网络在区域5的mIoU提升为64.1 %,这是因为最远点采样能够更好覆盖整个点云,不会导致物体某一部分经过下采样后丢失,有效保留目标几何结构,增强网络特征提取能力以及稳定性。(3)将多尺度监督引入基线方法,使得网络在区域5的mIoU提升为65.2 %,原因在于多尺度监督引入了辅助分类器,能够判断隐藏层中点云特征图质量的好坏,促使隐藏层学习过程更加直接透明,网络提取到语义明确的点云特征。(4)将多尺度监督与最远点采样算法组合使用,网络模型的分割性能得到了进一步改善,分割精度达到最好效果,在区域6的mIoU提升至65.8 %。

表3 S3DIS区域5的消融实验结果

实验进一步探究了浅层和高层编码特征对类别信息预测模块的影响,如表4所示,当只利用解码特征去预测类别信息向量时,网络在区域5的mIoU为64.9 %。同时考虑解码特征以及对应的浅层和高层编码特征,网络在区域5的mIoU提升为65.8 %。浅层编码特征拥有更为具体的空间信息,高层编码特征拥有更为抽象的语义信息,二者的结合进一步增强类别信息的预测精度,从而提高整个网络的分割能力。

表4 类别信息预测模块消融实验结果

5 结 语

针对室内以及室外大场景的语义分割,本文提出了一种结合多尺度监督和SCF-Net的神经网络,将解码阶段的点云类别预测任务分解成一系列点云感受野类别预测任务,通过对解码器中每一层进行额外的监督,以在分割任务中提取信息丰富语义明确的特征,进一步提升网络对各类物体的分割效果。针对SCF-Net采用随机采样算法可能导致关键信息丢失这一问题,本文将其替换为最远点采样算法,能够更好的覆盖整个点云,增强网络对局部特征的提取能力。实验结果表明,多尺度监督的引入能够有效提高网络整体分割精度,促使网络隐藏层学习到的特征易区分、更具鲁棒性,改善网络对物体边缘的分割效果。当然,本文提出的网络模型还有很多地方需要改善,如何进一步简化模型、降低模型复杂度是下一步的工作重点。

猜你喜欢
解码类别语义
《解码万吨站》
语言与语义
解码eUCP2.0
NAD C368解码/放大器一体机
Quad(国都)Vena解码/放大器一体机
“上”与“下”语义的不对称性及其认知阐释
服务类别
认知范畴模糊与语义模糊
论类别股东会
中医类别全科医师培养模式的探讨