一种基于空洞邻域的点云语义分割模型

2023/6/15 10:06:20　阅读：66　发布者：

原题：利用局部几何特征与空洞邻域的点云语义分割

以下文章来源于经纬石旁话遥测，作者项学泳等

本文改编自学术论文

《利用局部几何特征与空洞邻域的点云语义分割》

刊载于《武汉大学学报（信息科学版）》2023年第4期

项学泳1 李广云1 王力1 宗文鹏2

吕志鹏1 向奉卓3

1. 信息工程大学地理空间信息学院, 河南郑州, 450000

2. 西安测绘研究所, 陕西西安, 710000

3. 61287部队, 四川成都, 610036

项学泳

博士生，主要从事三维场景环境感知研究。ahhsxxy@163.com

李广云

博士，教授。guangyun_li_chxy@163.com

摘要

点云具有数据量大、无拓扑结构等特点，现有的深度学习语义分割模型难以充分挖掘大范围邻域内点云中所隐藏的几何特征。由此提出了一种基于空洞邻域并结合角度等几何特征作为模型输入的点云语义分割模型。首先，在局部邻域构建过程中，将图像处理的空洞卷积操作扩展至点云，建立空洞邻域结构，以扩大感受野；然后，在特征提取过程中，将中心点与邻域点之间相对坐标、距离、角度等基本几何特征作为模型输入，最大程度挖掘邻域内的几何特征；最后，基于所提邻域结构与特征提取算法构建了点云语义分割模型。采用Semantic3D数据集进行实验验证，结果表明, 所提模型分割效果优于对比的点云语义分割算法，空洞邻域与局部几何输入特征能够有效改善点云语义模型的性能。

引用

项学泳, 李广云, 王力, 宗文鹏, 吕志鹏, 向奉卓. 利用局部几何特征与空洞邻域的点云语义分割[J]. 武汉大学学报 ( 信息科学版), 2023, 48(4): 534-541. doi: 10.13203/j.whugis20200567

三维激光扫描测量技术是三维空间信息获取的一种重要方式。原始点云数据由于缺乏拓扑结构，除了可视化与距离测量外，可以直接进行应用的领域相对有限，需要通过数据处理提取出感兴趣的信息，其中获取点云的语义信息是实现三维场景识别的重要手段，其在基础测绘、智慧城市建设、机器人环境感知等方面有着广泛应用。

为了解决点云的语义分割问题，相关学者提出了大量解决方案，包括基于边缘的分割方法、区域生长型算法、模型匹配法以及以上述算法为基础加以组合构成的复合算法。由于点云的非结构化和分布不均匀等特性，以及现实场景中地物类别繁多、分布杂乱，因此难以采用某一种特定的算法解决点云语义分割问题，迫切需要一种以数据作为驱动的方式进行处理。

近年来，深度学习在图像和自然语言处理方面取得了巨大进展，相关研究也逐步扩展至点云数据处理领域。其中，文献[8]首先获得图像语义分割效果，然后将图像分割结果传递至点云；RangeNet将点云转换为二维图像，在图像上执行语义分割后，再将图像语义分割结果映射至点云空间，但在映射过程中由于遮挡会导致三维空间信息丢失；VoxNet直接将三维卷积应用于点云实现点特征提取，然而该处理方式会导致内存消耗严重，计算代价高昂；PointNet在考虑置换不变性的基础上实现了直接基于点云完成语义分割任务，具有开创性的意义，但该网络逐点提取点特征，在网络后期仅融合了全局特征，忽略了局部邻域信息；PointNet++虽建立了两种邻域结构，但在每个邻域内部却迭代地使用PointNet提取邻域特征，运算量较大。

本文模型基于多层感知机，直接以点云作为输入，无需进行中间数据转换。然而现有基于多层感知机的语义分割模型在邻域构建与特征提取过程中均存在一定的不足。特征提取阶段获取更大范围邻域信息有利于提升语义分割准确性，但在现有模型基础上盲目地扩大邻域范围会增加模型参数数量，导致模型训练困难。因此，本文从图像处理领域的空洞卷积获得启发，将图像空洞卷积扩展至点云处理中，该处理方式能够在不增加模型参数的前提下获取更大范围的邻域几何特征。在特征提取过程中，文献[11-12, 14-15]单纯以点坐标作为网络的输入，这种输入方式难以充分挖掘点云中所隐含的几何信息。因此，本文在特征提取时增加了距离与角度作为特征提取阶段的额外输入特征，提升语义分割性能。

1 算法介绍

1.1

邻域构建

目前深度学习点云处理模型普遍采用K最近邻算法(K-nearest neighbor，KNN) 获取邻域点。当点云比较稠密时，KNN算法所获取的邻域范围比较有限，虽然可通过增加邻近点的数量进行扩大，但是邻域点数目的增多会导致特征提取阶段模型参数的增多，最终带来网络模型难以优化、语义分割效率降低等影响。

文献[13]在进行图像卷积操作过程中，通过间隔像素建立空洞卷积结构。考虑到点云数据结构的不规则性，本文依据欧氏距离构建了两种空洞邻域结构，如图 1所示。首先，通过KNN算法搜索2×k个点，并按照欧氏距离对其进行排序，然后每间隔一点进行抽取，最终获得k个邻域点，将上述邻域结构命名为空洞KNN(见图 1(b))。考虑到近中心的邻域点与中心点的相关性较强，本文首先获取距离中心点最近的k/2个点，然后在外层的k个点中，每隔一点抽取剩余的k/2个点，最终组合获得k个邻域点，将上述邻域结构命名为复合KNN(见图 1(c))。

图 1 3种点云邻域结构对比

文献[14-15]采用经典KNN算法直接获取k个距离中心点最近的点构成邻域，而本文提出的空洞KNN和复合KNN根据邻域点与中心点之间的欧氏距离构建邻域空间，可有效扩大邻域范围，同时保持邻域内点的数量不变，因此并未增加模型的参数数量。

1.2

特征提取

点云X={xi}i=1N∈RN*F一般由点坐标及颜色、回光强度等附加特征组成，其中N为点数，F为点特征维度数。特征提取的主要目的是使每个点均能获取与邻域点的相关特征。对于任意一点p，首先利用§1.1中提出的邻域搜索算法获取邻域点，然后对其进行如下编码：

式中，fim表示中心点i与其第m个邻域点之间的编码特征；h()为特征提取函数，本文模型采用多层感知机(multi layer perceptron，MLP)实现；pi与pim分别表示中心点与其第m个邻域点的三维坐标；dim=‖pim−pi‖表示中心点与邻域点之间的欧氏距离；vim=(pim−pi)表示以中心点为原点的邻域点相对坐标；aim为邻域点在x、y、z 3个方向上相对于中心点的角度反正切值，计算如下：

式中，xi、yi、zi表示中心点坐标；xim、yim、zim表示第m个邻域点的坐标。与文献[11, 12, 15]仅采用几何坐标作为模型的输入不同，式(1) 在输入信息中融合了距离、角度在内的多种基本几何特征，为网络挖掘更深的几何特征提供了良好的初始条件。并且将获得的中心点与邻域点之间的特征fim与颜色、回光强度等其他输入特征进行结合，若采集到的点云无附加特征，则直接将本处理单元输出的特征作为特征聚合的输入，再做进一步的处理。特征提取过程如图 2所示。

图 2 点云特征编码过程

1.3

特征聚合

特征提取阶段首先获取中心点与各邻域点的交互特征，再对交互特征进行聚合以获得中心点的特征。在语义分割过程中，为了使相同语义类内部特征差异较小，而不同类别间的特征差异较大，从而有效地区分各语义类别，本文采用了具有注意力机制的特征聚合操作。特征聚合输出各点特征表示为{f1,f2,⋯,fN}⊆RN×H,{f1,f2,⋯,fN}⊆Rk×H表示第i个中心点与其k个邻域点之间的特征，聚合过程如下：

式中，wˆim表示中心点i与其第m个邻域点之间的相关性；g:RH→R1，可由神经网络实现；w为神经网络的权值；wˆim是对wim进一步使用softmax函数做归一化处理得到的权重。训练过程中，依据反向传播的回馈，通过式(4)自动调节权重wˆim，从而由网络自适应地决定中心点与邻域点之间的相关性。

1.4

池化处理

在点云特征编码过程中，池化处理与降采样是同步处理的流程。池化操作可降低数据量，提升模型处理效率。本文模型直接以点作为输入，池化还需满足文献[11]所提及的置换不变性的要求，即当点云的输入顺序发生变化时，模型学习获得的点云特征仍然保持不变。{f1,f2,⋯,fN}⊆RN×H为前一阶段特征聚合所生成的一组特征向量，假设降采样率为1/4，则池化后的特征{f1ˆ,f2ˆ,⋯,fN/4ˆ}⊆RN/4×H。为满足置换不变性，本文采用最大池化，池化过程如图 3所示。使用KNN算法获取若干邻域点，每个邻域点表示为n维特征向量，最大池化后中心点的特征向量则为所有邻域点特征向量每一维度的最大值。因此，即使邻域点的顺序发生变化，仍可保证所提取的特征保持不变。

图 3 池化处理过程

2 网络结构

模型的整体结构采用U-Net，U-Net最初是针对图像语义分割而专门开发的网络，该网络结构已被广泛应用于点云语义分割。与U-Net类似，本文模型整体上分为编码和解码两个阶段，如图 4所示。

图 4 所提模型整体结构

本文模型直接以点云坐标、RGB颜色、回光强度作为输入，输出为每个点的标签预测值，通过交叉熵损失函数计算预测值与标签值之间的损失值，反向传播依据损失值并使用Adam优化器对网络进行监督训练。

编码阶段设置了4个处理层，上一处理层的输出为下一处理层的输入，每个处理层分为特征提取、特征聚合、池化3个处理单元，特征编码和特征聚合单元逐步地提取点云中的空间几何特征，池化操作逐步地稀疏点云并保留点云中高阶特征，与池化同步的降采样采用反密度采样算法，降采样率为1/4，相较于文献[12]中模型所采用的最远点采样，该采样算法在效率上更具优势。经过4个处理层，每一层输出的点特征向量维度分别为64、128、256、512，邻域点的数值k取16。

解码阶段同样设置了4个处理层，每个处理层之间通过最邻近点插值算法逐步恢复点云几何细节，升采样率为4。在每一层借助U-Net的跨层连接，合并来自编码阶段对应分辨率的特征图，从而增强上下文信息关联，经过4层插值与合并操作，最终获得点云中单独每一点的特征，进一步通过全连接网络和softmax分类器获得各点语义标签的预测值。

3 PPP-B2b产品评估及有关定位精度分析

3.1

实验准备

为评价本文模型的语义分割效果，采用大型室外场景数据集Semantic3D对本文模型进行测试。Semantic3D数据集由苏黎世联邦理工学院下属的大地测量与摄影测量学院于2017年通过地面静态扫描方式采集获得，点云数据包含XYZ坐标、RGB颜色与回光强度，总点数超过40亿个。采集场景包含了教堂、街道、铁轨、广场、村庄、足球场、城堡等。数据集包含8个语义类别，分别为人造地形、自然地形、高植被、低植被、建筑物、硬质景观、扫描人工制品和车辆。

采用平均交并比(mean intersection over union，mIoU)与总体精度(overall accuracy，OA) 两类衡量标准评价模型性能，其中mIoU通过计算所有语义类别交并比的平均值获得，计算如下：

式中，MTi、MFi、MNi分别表示第i类别的真阳例、假阳例、假阴例中所包含的点数；n为场景中总的语义类别数；MT、MT,N、MF、MN分别表示场景中所有类别的真阳例、真阴例、假阳例、假阴例中所包含的点数。

实验硬件环境为Intel Core i9-9980Xe CPU、GPU为4块的Nvidia RTX 2080 Ti，RAM为128 GB。软件环境采用ubuntu16.04下的CUDA10.2 + cuDNN7.6.5 + python3.5 + anaconda3.6 + pytorch1.5。训练期间批处理块的大小为100，每批次处理的点数为8 192个，模型的初始学习率为0.02，学习衰减率为0.9，训练迭代次数为50次。

3.2

实验结果与分析

为验证本文所提出的两种空洞邻域结构对点云语义分割的影响，模型编码阶段设置为4层，且保持输入几何特征、实验组邻域点数量等均相同，使用Semantic3D数据集的15个场景建立训练集和验证集，建立方式参照文献[19]。依次将模型的处理层1、2、3、4按顺序替换为本文两种空洞邻域结构，以及将4层均设置为经典KNN邻域结构，共获得9个模型。为测试模型的效率，使用了Semantic3D下的Semantic-8测试集，各模型的总体精度、平均交并比与测试阶段耗时如表 1所示。为进一步测试邻域点的数目对语义分割效果的影响，在模型的第1、2层均使用复合KNN的模型基础上变化邻域点数目，实验结果如表 2所示。

表 1 不同邻域结构下模型的总体精度平均交并比与推理耗时

表 2 不同邻域点数目下模型的语义分割结果

从表 1可得，相较于将模型整个4层均设置为传统KNN邻域结构，在模型的浅层设置本文所提出的两种空洞邻域结构，mIoU和OA均有所提升。其中，在第一层设置空洞KNN时，其OA和mIoU分别提升了1.5%和1%。在1~2层均设置复合KNN可获得最好的语义分割效果，OA和mIoU分别提升了1.7%和1.4%。由此可见，邻域点范围的扩大对点云语义分割起到了积极作用。此外，随着处理层的加深，点数越来越少，最后一层在池化前的点数量仅有模型输入点数的1/64，在这种稀疏点云状态下加入空洞KNN和复合KNN，舍弃了部分空间相关性较强的邻近点，其OA和mIoU均出现不同程度的下滑。各模型的推断耗时基本在11 min左右，这与预期的一致，可见两种邻域模型虽扩大了邻域范围，但如§1.1所述，邻域结构改善并未增加模型的参数数量。从表 2可得，模型的OA和mIoU随着邻域点数量的增加而增加，当邻域点数量达到16上下时，虽可进一步增加邻域点的数目以改善语义分割结果，但提升并不明显，为平衡模型效率和表现力，将本文模型的邻域点数目设定为16。

为了验证几何输入特征对语义分割效果的影响，本文进一步开展对比实验，各实验组模型的1~2层的邻域几何结构均设置为复合KNN，邻域点数均保持相同，仅对模型的输入类别做出变化，实验结果及模型测试阶段耗时如表 3所示。由于现有大多数模型均以中心点、邻域点以及相对坐标作为输入量，因此本文只探讨中心点与邻域点间的相对距离与角度对点云语义分割效果的影响。

表 3 不同输入几何特征下模型的总体精度平均交并比与推理耗时

由表 3可知，相比于单纯以中心点坐标、邻域点坐标以及相对坐标作为模型输入，以距离作为附加输入，OA和mIoU分别提升了6.3%和4.8%；以角度作为附加输入，OA和mIoU分别提升了7.5%和6.1%；当在以坐标为模型输入的基础上加入角度与距离，OA和mIoU分别提升了10.7%和8.8%。由此可见，在输入端增加不同类别的几何特征可以有效地改善模型的语义分类结果。在推理耗时上，模型的推理时间随着输入几何特征类别的增加而递增，最终本文模型的推理耗时为10.98 min，相对于目前流行的单纯以点坐标作为输入的模型仅增加了1.51 min，差距不大。

将最佳邻域设置与输入特征设置组合为本文的最终模型，并以Semantic3D训练集的15个场景训练本文模型，在测试集的15个场景对本文模型进行测试，由于测试集无真值标签，本文仅展示了输入值与预测值，部分场景的分割效果如图 5所示。

图 5 本文模型在Semantic3D分割效果

图 5展示了乡村、城市、市郊3类具有代表性的场景，由图 5可知，本文模型点云分割边界清晰，地物内部杂点较少，整体目视分割效果良好。为进一步定量地评价本文模型的分割效果，将模型在Semantic3D的reduced-8测试集上的结果与文献[21-24]所提出的语义分割模型的测试结果进行对比，以各类别的IoU、mIoU以及OA为评价指标，结果如表 4所示，部分数据来自Semantic3D官网。

表 4 不同语义分割算法

在Semantic3D上的结果对比/%

由表 4可知，本文模型分类的整体精度和平均交并比分别为91.2%和68.2%，达到了较为理想的分类效果。从每一类别看，人工地面与自然地面分类的交并比分别为96.5%和86.9%，较大程度优于其他模型；从植被分类结果看，本文模型在高植被分类方面效果较好，但对矮植被的分类效果较差；从建筑物的分类结果看，5种模型的分类结果在90.0%~92.4%，相差不大；从硬质景观、扫描人工制品、车辆来看，本文模型均表现较弱，其中硬质景观的分类结果仅为28.7%。从分类结果整体来看，本文在地表分类结果上表现较为出色，但在场景中小类别分类结果上均一定程度上落后于其他算法。

4 结语

本文以空洞邻域与多组几何特征输入为基础构建了点云特征提取单元，并基于特征聚合、最大池化构建了点云语义分割模型，模型构建简洁，通过大型室外场景数据集Semantic3D的测试，验证了本文模型具有良好的点云语义分割能力。空洞邻域能够在不增加模型参数的前提下，有效地提取更大范围内的点云信息，多类别基本几何特征输入能够最大程度挖掘邻域内所隐藏的几何相关性。从分类结果来看，本文分类的准确性倾向于包含地面在内的大的地物类别。

转自：“测绘学术资讯”微信公众号

如有侵权，请联系本站删除！

上一篇： 人工智能在机器人大地测量学中的进步与挑战
下一篇： 如何衡量一篇文献综述好不好？应有这些“软指标”

投稿问答最小化 关闭

一种基于空洞邻域的点云语义分割模型

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

一种基于空洞邻域的点云语义分割模型

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭