基于位置编码和双距离注意的点云分割方法

2024-03-25 06:39温智成冯锦梁叶森辉
激光与红外 2024年2期
关键词:残差语义编码

温智成,王 蕾,冯锦梁,叶森辉

(东华理工大学信息工程学院,江西 南昌 330013)

1 引 言

随着机器人、自动驾驶和AR/VR应用的日益普及,对3D点云数据处理的需求正在迅速增长[1-2]。然而,由于其固有的不规则性和无序性等特点,处理此类数据具有挑战性。正则化的卷积不适用于点云处理。

为了处理三维点云数据,许多研究人员探索将它转换为其他形式的表示,并应用卷积运算来学习特征信息。这些方法可以分为三类:基于投影的方法[3-5]、基于体素化的方法[6-7]和基于点的方法[8-21]。

基于投影的方法。将点云投影到二维平面上,将其作为正则化图像进行处理。Gvcnn[3]设计了一个由视图、组和形状组成的框架,可以更有效地聚合来自各种视图的信息并识别3D形状。RangeNet++[4]将点云转换为距离图像表示,使用2D卷积进行语义分割,并使用k近邻算法提高分割性能。View-gcn[5]使用图卷积网络聚合多视图特征。但是,这种方式会导致部分点云信息的丢失。

基于体素的方法。将点云转换成三维体素,随后通过三维卷积运算学习特征信息。Voxnet[6]网络使用基于体素的表示作为对象识别和其他任务的输入。SPVConv[7]引入了一种低成本、高分辨率的基于点的分支结构,可以捕获更细粒度的信息。然而,该类方法会造成高额的计算成本和内存消耗。

基于点的方法。直接在原始点云上执行卷积操作,无需将点云转换为中间态的表示,从而避免了上述方法的缺点。PointNet[11]和PointNet++[12]是第一批直接对点进行操作的研究工作。AGConv[15]通过将坐标与对于点的其余特征相乘,使卷积对每个局部区域的操作是各向异性的。PCT[19]采用全局自注意力机制,使各点能够关注彼此的特征信息。

然而,上述基于点的方法由于使用对称聚合操作,导致无法获得点云的良好局部表示,从而导致局部信息的严重丢失。

为了应对这些挑战,本文提出了DualRes-Net网络。利用位置编码模块(Position Encoding Module,PEM)对点云的坐标特征进行编码,从而获得更有效的局部信息表示。采用双距离注意池(Dual-distance Attention Pooling,DDAP)将中心点与邻近点的差异与注意力相结合,更好地实现了点云内部局部信息的自适应聚合。然后利用去分化残差(De-Differentiation Residual,DDRes)结构挖掘点云的深层语义信息,利用MLP分别学习对应点的坐标特征等特征,从而稳定模型的训练。本文提出的DualRes-Net在S3DIS Area5上的分割性能优于许多基准网络。

2 本文方法

本文提出了一种DualRes-Net网络,如图1所示(图中Input Data为输入点云数据;Output为预测语义;DS为下采样方法),该网络主要由三个关键模块组成:位置编码模块(PEM)、双距离注意池(DDAP)模块和去分化残差(DDRes)模块。由于本文所提方法与点云的Transformer类方法相似,所以在本节中,我们首先介绍本文所提三个模块的具体结构,随后将本文方法与Transformer类方法进行比较。

图1 DualRes-Net网络架构

2.1 位置编码模块(PEM)

点云点属性包括坐标、颜色和其他属性。在点云语义分割任务中,网络对位置信息比其他信息更敏感。例如,在分割绿墙和草地时,坐标特征可以清楚地显示两者的区别。

因此,提出PEM模块,如图2所示(图中N为点数,k为最近邻搜索次数,3和C分别为坐标特征通道数和对应点其余特征通道数)。该模块明确地将编码的坐标特征与相应的点特征融合,使点特征知道自己在空间中的位置。这使得PEM能够清晰地观察到局部信息,这对于学习复杂的场景结构非常有益。该模块的操作步骤如下:

图2 位置编码模块(PEM)

(1)

(2)

重复两次以上的点坐标编码和点特征融合步骤,可以得到更好的局部点云表示,从而提高网络的分割性能。

2.2 双距离注意池模块(DDAP)

图3 双距离注意池(DDAP)

(3)

(4)

为了加快网络的推理速度,我们将其设为负指数函数,如式:

(5)

因此,处理后的输入数据如式:

(6)

其中,“‖”为连接符号。

处理后的数据通过MLP和softmax层传递,如式:

score=Softmax(MLP(fconcat))

(7)

获取局部区域内各点对应的分数。

最后将分数乘以局部区域内对应的点,利用对称函数Sum对局部信息进行汇总,如式:

(8)

2.3 去分化残差模块(DDRes)

传统的残差模块首先使用k近邻(KNN)算法获得局部区域。通过连接相应点的坐标和其他特征,数据通过MLP和最大池化层提供。输出再经过两层MLP处理学习特征信息,最后加入到输入数据中形成残差模块的输出。传统残差模块结构如图4(a)所示,公式如下:

图4 去分化残差(DDRes)

fmax=max(φ(inputknn))

(9)

fout=φ×2(fmax)+inputfeat

(10)

其中,inputknn表示对输入数据进行KNN搜索得到的局部数据;inputfeat表示对应点的其余特征;fmax表示MLP和max-pooling后的数据输出;fout表示残差模块的输出。

传统的残差模块是将坐标特征与对应点的剩余特征进行拼接,利用MLP学习特征信息。受CN[21]的启发,由于不同的输入类型(坐标特征、颜色特征)具有明显不同的分布,这可能导致模型训练不稳定。为了解决这一问题并稳定模型训练,本文提出了去分化残差(DDRes)模块。MLP分别应用于坐标特征和对应点的其余特征。使用最大池将两个MLP的输出结果相加以获得局部特征,然后将其通过两个MLP层并与输入数据相加。DDRes模块结构如图4(b)所示,公式如下:

fmid=φ(inputx)+φ(inputfeat)

(11)

fmax=max(fmid)

(12)

综上所述,PEM可以获得更好的点云局部表示,提高分割性能;DDAP模块将中心点与邻近点的差异与注意力池相结合,自适应聚合局部信息;DDRes模块使用去分化结构来稳定模型训练,同时从点云中挖掘深度信息。

2.4 Transformer类方法

本文所提方法DualRes-Net与点云的Transformer类方法类似,下面将详细介绍Point Transformer[20]和Fast Point Transformer[21]方法。

Point Transformer:该网络的输入为点云数据,其中每个点由3D坐标和颜色特征表示。它首先将点云映射到一个低维特征空间,并将这些特征作为Transformer的输入。Transformer由多个编码器层组成,每个编码器层包含自注意力机制和前馈神经网络。自注意力机制通过计算点与其他点之间的相似度,学习点的上下文信息,以至于每个点都能够利用周围点的信息来更新自身的特征表示。多头自注意力机制并行计算多个关注权重,以捕捉不同层次的特征。通过多个编码器层的堆叠,Point Transformer能够建模点云中点的全局和局部关系,并提取丰富的特征。

FastPoint Transformer:该方法在Point Transformer的基础上引入了稀疏技术,通过对点云进行子采样来减少计算量。它的关键思想是将点云划分为一组局部邻域,并且仅对每个局部邻域应用Transformer操作。这样可以减少自注意力机制的计算复杂度,并仍然能够捕捉到全局和局部之间的关系。

上述方法对点云局部利用自注意力机制,并在编码器与解码器层添加多个自注意力机制,从而获得丰富的特征信息。然而,与本文方法DualRes-Net相比,由于在编码器层与解码器层存在多层自注意力,Transformer类方法会导致高额计算量的问题。

3 实 验

在本节中,在S3DIS数据集上进行了实验,以评估提出的DualRes-Net网络。

3.1 数据集

S3DIS数据集是斯坦福大学提供的一个公开可用的数据集。它由271个房间组成,完全由6个不同的大型区域的点组成,有13个语义类别(窗户,墙壁,椅子等)。每个点包含欧几里德坐标和颜色信息。

3.2 实现细节

S3DIS数据集分为6个不同的区域(Area1-Area6)。本文使用Area5作为测试集,其余5个区域作为训练集。使用平均交联(Intersection over Union,mIoU)作为语义分割性能的度量。

提出的DualRes-Net网络是基于Pytorch框架实现的。实验在一台配备NVIDIA RTX3080 GPU的服务器上进行。训练时,EPOCH设置为100,BatchSize设置为4,初始学习率设置为0.01,使用AdamW优化器,使用余弦退火函数逐渐衰减学习率。

3.3 评估性能

DualRes-Net网络和其他方法在S3DIS Area5上的量化语义分割性能如表1所示。

表1 S3DIS Area5的语义分割结果

表1展示了本文提出的DualRes-Net方法在S3DIS Area5上的定量语义分割性能,mIoU为63.7 %,OA为87.5 %,mAcc为70.8 %。与经典的语义分割方法PointWeb、RandLA-Net和GACNet相比,该方法的mIoU分别提高了3.4 %、1.3 %和0.8 %。

为了证明我们提出的方法在语义分割方面的有效性,我们在Area5中可视化了三种不同类型的房间,如图5所示。

图5 Area5的部分房间可视化结果

3.4 消融实验

为了验证DualRes-Net中三个关键模块的有效性,在Area5上进行了消融实验。

从表2可以看出(其中“√”表示采用该方法,“×”表示没有采用该方法),如果移除PEM、DDAP和DDRes模块,性能会下降8.9 %。加入位置编码模块PEM后,分割性能提高至55.6 %,比移除所有模块提高1.8 %,说明对点云的位置信息进行编码可以获得有效的局部特征表示。与不添加残差结构Res相比,添加残差结构Res的模型性能提高了3.8 %,表明残差结构Res可以挖掘深度点云信息。与加入残差结构Res相比,加入去分化残差模块DDRes的模型性能提高了0.8 %,说明分别对对坐标和对应点的其余特征应用MLP可以稳定模型训练,提高分割性能。最后,与不添加双距离注意池模块DDAP相比,添加DDAP可以使mIoU指标提高3.5 %,表明该模块可以有效地自适应聚合局部信息。

表2 在Area5上的DualRes-Net消融实验结果

4 总 结

本文提出了DualRes-Net网络,以解决现有的许多点云分割方法对局部位置信息表示能力有限以及丢失重要特征信息的问题。采用位置编码模块(PEM)对点坐标进行编码,采用双距离注意池(DDAP)模块对局部特征信息进行自适应聚合,采用去分化残差(DDRes)模块挖掘深层点云特征,采用多层感知器(MLP)分别对坐标和对应点的其余特征进行处理。实验结果表明,该方法的分割性能为mIoU 63.7 %,优于许多现有点云语义分割的网络。消融实验表明了PEM、DDAP和DDRes模块的有效性。

猜你喜欢
残差语义编码
基于双向GRU与残差拟合的车辆跟驰建模
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
基于残差学习的自适应无人机目标跟踪算法
《全元诗》未编码疑难字考辨十五则
语言与语义
子带编码在图像压缩编码中的应用
基于递归残差网络的图像超分辨率重建
Genome and healthcare
“上”与“下”语义的不对称性及其认知阐释
平稳自相关过程的残差累积和控制图