一种用于街景影像窗户提取的神经网络模型

2023/6/15 10:02:23　阅读：120　发布者：

一种用于街景影像窗户提取的神经网络

戴激光，陈桐

辽宁工程技术大学测绘与地理科学学院，辽宁阜新 123000

摘要:

针对现有方法受类内多样性以及窗户间距较近的影响，造成漏提取和分割不足等问题。本文提出一种面向窗户提取的WBSNet模型。根据窗户在影像上的密集分布特点，加入CEB模块，用于扩大感受野，减少了目标的漏提取问题。针对相邻窗户间距较近引起的分割不足现象，引入了一种特征提取模块，在保证细节信息编码的基础上，加强网络的特征提取能力。本文在自制的街景数据集上进行实验，实验结果表明，本文方法精确率、召回率、F1-Score和交并比分别达到了76.42%、91.34%、81.82%和70.46%，明显优于其他方法，验证了本文方法的有效性和可行性。

0 引言

窗户信息的获取是城市建筑普查中的重要工作，在城市建设、应急响应和城市可持续扩展等多个领域扮演着基础性角色[1]。早期对城市窗户信息的获取方式是通过人工调绘采集，虽然数据较为准确，但是耗费大量的时间和人力成本，结果具有滞后性。伴随着数字城市的快速发展，急需新的技术和方法来提高窗户信息的获取能力。街景影像以人的视角详细描绘了城市可视环境，具有海量性与更新迅速等优点，为建筑物窗户检测提供了可靠的数据源。

街景影像窗户提取属于语义分割的范畴。传统方法通常包括边缘分割[2]、区域分割[2]、阈值分割[2]和聚类分析[3]等图像分割方法。其中最常用的是边缘分割和区域分割算法。边缘分割算法主要根据边缘灰度、颜色、纹理等特征的突变进行边缘检测，分割时易将一些边缘信息作为无用信息去掉，导致分割边缘线不连续出现“过分割”问题[4]。区域分割图像算法是根据像素的连续性和像素间的相似性进行区域划分，但对于相似性大的区域，常出现“欠分割”现象[4]。

卷积神经网络能够在多个尺度上学习和表达多种视觉特征，在街景影像的分析领域取得了巨大成功[5]。语义分割[6]和目标检测[7]是深度学习的两个分支。目标检测可以准确的定位物体的位置，输出的是一个被矩形框住的范围，由于拍摄角度的差异，窗户会呈现出梯形、平行四边形等形状，使得实际目标要比矩形框小。而语义分割是以像素级别对目标进行划分，对目标能输出真实的目标范围，因此更适合于窗户提取。面向窗户的语义分割方法并不多，可供参考的相关研究领域主要来源于立面提取[8]。文献[9]提出了一种用于立面图像语义分割的网络（ALKNet）。ALKNet充分利用立面的规则结构，用来聚集有用的非局部上下文信息。文献[10]提出一种立面分割方法，基于结构化随机森林（SRF），加入卷积神经网络（CNN）的区域建议网络（RPN），通过确定性矩形拟合来创建矩形立面对象和网格结构，得到精准的门窗预测。为了提高不同地物边界分割的准确性，文献[11]提出一种FacMagNet集成模型，该模型通过改进U-Net网络架构，使用集成学习策略对目标进行精细分割，提高了对边界的预测性能。文献[12]在解析建筑立面的研究中，提出了一种新的对称损失函数，该损失函数由矩形约束和检测器约束组成，在结合立面结构先验知识的基础上，达到预测窗户形状及位置的目的。表1从具体实现、优势和不足几个方面对立面提取方法进行了总结。虽然现有方法取得了一定的研究成果，但仍未能很好的解决漏提取和分割不足等问题。究其原因，是由于现有方法感受野与目标尺度之间匹配不当，导致有效感受野覆盖范围局部，无法对上下文信息进行充分感知，因此分割结果往往存在漏提取等缺陷。另外受窗户的间距较近和拍摄角度的影响，且同一建筑物之间窗户具有较大的相似性，多个窗户会错误的合成单个对象，导致分割不足。

表1 深度学习立面提取方法

在目前窗户提取的过程中，主要存在以下两种问题：1）现存视觉主干如[13]、ResNet[14]等网络，若直接用于窗户提取工作，由于卷积内核与池化步长配置，致使感受野受限，无法编码有效的上下文信息，导致漏提取现象的发生。2）受窗户位置分布特性的影响，现有方法不能顾及窗户间距较近的特点，难以在底层特征内编码有效的边缘、纹理、棱角等信息，造成分割不足问题产生。针对以上出现的问题，本文依据窗户的视觉特征，基于BiSeNet网络提出了一种复杂场景下的窗户提取方法。主要思路是：（1）在全局视角下，窗户空间分布密集且语义信息丰富，在上下文路径加入一个CEB模块，用来捕获高级语义特征扩大感受野，缓解了窗户的漏提取问题。（2）从局部来看，细节信息的编码是区分相邻窗户的主要依据，因此本文引入特征提取模块RFB，它包含多分支卷积层以及膨胀卷积层两个组件，以此丰富空间细节，进而加强网络的特征提取能力，抑制由窗户邻近性引起的分割不足问题。

1 WBSNet的网络结构和方法

1.1 网络结构

窗户几何结构规则、密度大、数量多，且细节信息和语义信息较为丰富。这样的特点对分割网络的细节特征提取能力提出了较高要求。经典网络BiSeNet采用了双分支路径对影像进行分割，空间路径保留空间位置信息生成高分辨率的特征图，同时设计上下文路径来获取感受野，适合于细节特征丰富的目标提取。在窗户信息提取模型设计中，如何在全局视角下结合丰富的上下文信息，在局部范围内捕获空间细节信息是关键所在。针对该问题的特殊性，本文基于BiSeNet模型设计了窗户双边分割网络（window bilateral segmentation network，WBSNet），其结构如图1所示。该网络包括3个部分：上下文路径、空间路径和特征融合模块（feature fusion module，FFM）。

1.2上下文路径

在语义分割的任务中，感受野对于上下文信息的获取具有重要意义，是缓解漏提取问题和提高模型精度的关键所在。在目标分割的过程中，感受野的增大可以更加有效的传递窗户的语义信息，是解决此类问题的有效方法。然而，BiSeNet仅使用全局平均池化（GAP）方法增大感受野，忽略了语义信息的流失问题。本文基于窗户的视觉场景特征，在上下文路径中以Xception为主干，以CEB替代GAP，增大感受野的同时并加强特征提取能力。

CEB模块将窗户的空间分布密集特点考虑在内，使用全局平均池化和残差连接嵌入全局上下文信息，一方面构建了目标的空间位置关系，增大了感受野；另一方面减少了语义信息丢失，提高了模型的泛化性能。在技术层面上，输入特征图经过全局平均池化（GAPooling），通过1×1的卷积将特征图降低维度，经过BN ReLu将两个不同维度的特征图相加，并进行特征融合，最后经过3×3卷积还原至最初的尺寸，如图2（a）所示。

为进一步加强特征的表征能力，在上下文路径输出部分，本文使用了ARM模块来细化16 倍下采样和 32 倍下采样结果。ARM模块如图2（b）所示，ARM将特征经过全局池化（Global Pool），通过 1´1卷积降低模型复杂度，加入ReLu 函数增加其非线性表达，通过 Sigmoid 激活函数在通道维度上进行权重提取，用于编码有效的输入特征，增强下采样的特征信息。

1.3 空间路径

上下文路径是为了提供足够的感受野，而空间路径旨在编码丰富的空间信息。现有方法表明，图像的局部空间信息对细节预测至关重要。窗户在局部范围内凹于墙面且位置邻近，受街景影像拍摄物距影响，边界视觉特征不显著，难以精准划分，因此容易出现分割不足问题。依据该特点，本文采用一种三层结构的空间路径，该路径可保留原始输入图像的大小和空间信息。同时本文在空间路径中引入了RFB模块，对路径中的细节信息进行编码，以此解决分割不足问题。

本文采用的空间路径包含三层。其中，在第二层和第三层之间加入一个特征提取模块RFB。如图3（a）所示，每一层均由二维卷积、批量归一化和ReLu激活函数组成，且卷积核大小为3×3，步长为2，因此输出特征图是原始图像的1/8。本文在第二层后加入了RFB模块，该模块整体上借鉴了Inception的思想，整体上采用膨胀卷积，可以充分获得丰富的空间细节，增强模型的提取特征能力。如图3（b）所示，它是不同尺寸卷积核的卷积层构成的多分支结构，采用膨胀率（rate）为 1、3、5的膨胀卷积，最后通过通道级联（Concatenation）将特征图相加，达到融合不同特征的目的。其中，捷径（Shortcut）用于解决梯度发散，进而避免损害模型效果。

在本文的双路径结构中，不同路径包含的特征位于不同的层级。其中，从全局范围出发的上下文路径捕获了窗户的上下文信息，该信息属于高层特征的一种；而基于局部特征考虑的空间路径编码了窗户的细节信息，该低级特征包含了更多的位置、边缘、棱角等信息。为了提高网络性能，需要融合不同层级的特征。本文采用BiSeNet的特征融合模块FFM，如图4所示。该模块将空间路径和上下文路径的输出特征串联起来，通过批量归一化平衡不同层次特征的尺度。FFM的应用，可将两条路径的输出特征有选择性的充分融合，得到准确的窗户类别像素。

2 实验与分析

2.1 实验数据

本文采用自制的数据集进行实验，数据集影像来自清华-腾讯100 K街景影像。从中筛选出1 010张影像进行数据集标注，影像大小均为2 048×1 024像素。数据集涵盖了不同种类的建筑和多种窗户类型。采用的标注工具使用的是开源软件Labelme，数据集共划分为训练集，测试集和验证集3部分，其中训练集为700张影像，测试集110张影像，验证集200张影像。数据集部分样例如图5所示。在标注的影像数据中，包含多种复杂场景：图5（a）中建筑物类型的不同，窗户的样式也存在差异，包括平开窗、固定窗和推拉窗等；图5（b）中，由于车载相机在拍摄的过程中，成像物距各不相同，致使窗户视觉尺度呈多样化；图5（c）源于建筑物用途及其附属窗户的数量、大小、成像间距和拍摄角度的差异，导致窗户分布的密集程度有所不同。由此可见，本文自制数据集具有类内多样性大的特点，该数据集可以有效的评判模型的学习和泛化能力。

图5 数据集示例

2.2

本文使用精确率（Precision）、召回率（Recall）、F1-Score（F1）和交并比（IoU）进行评估。Precision表示所有预测窗户像素正确样本的百分比，Recall表示被预测为正样本所占的百分比，F1-Score是综合精确率和召回率的结果。

为了保证实验对比的公平性，所有模型均在相同硬件设备、模型框架、参数设置下进行比较。其中，硬件设备为NVIDIA GTX 1650 GPU，模型均在Pytorch下实现，另外参考文献[14]、文献[15]，本文将训练参数设置为：batch-size为4，初始学习率为0.000 1，损失函数为交叉熵损失函数，epoch设置为500。基于以上实验条件，本文在自制的数据集上与DeepLabv3、DeepLabv3+、BiSeNetV2和BiSeNet等几种经典模型进行比较，如图6所示，并选取典型场景对实验结果进行展示与分析。

图6 对比实验结果图

图6（a）为一栋高层建筑影像。其中，DeepLabv3、BiSeNetV2和BiSeNet网络出现了窗户的漏提取问题。相比而言，DeepLabv3+网络虽然较为完整的提取了窗户信息，但是该模型抗噪性差，存在严重的分割不足现象。即使DeepLabv3和DeepLabv3+两种模型使用了ASPP（atrous spatial pyramid pooling）结构，用于学习大范围特征，但对目标信息的还原仍有所不足。因此，考虑到该问题，本文在上下文路径部分引入一个CEB模块，在捕获高级语义特征的基础上进一步扩大感受野。比较其他方法，本文方法可以较好地识别出窗户的细节信息，说明该模块具备抗干扰能力，能够缓解窗户的漏提取问题，证明了本文方法的有效性。

图6（h）中场景是由两栋单层公共建筑组成的影像。DeepLabv3、DeepLabv3+、BiSeNet和 BiSeNetV2这4种网络均出现了分割不足的错误。其中，DeepLabv3+出现的错误最为明显，这是由于该网络结构过深，对细节特征分辨率表达不足。DeepLabv3、BiSeNet和BiSeNetV2网络尽管较为完整识别出窗户特征，但在边界还原上仍不够完善，难以解决窗户自身的邻近性问题。对照WBSNet方法，由于本文引入特征提取模块RFB，在丰富空间细节的基础上，加强了网络的特征提取能力，该模块可有效解决分割不足问题。

图6（o）为一栋高层公共建筑，窗户在影像中呈高度密集化分布，并且窗户邻近性更加复杂，分割难度较大。从图中可以看出，在对比方法中均出现了漏提取和分割不足的问题。其中，DeepLabv3出现漏提取现象较少，但分割不足较为严重。另外，DeepLabv3+、BiSeNet和BiSeNetV2这3种方法虽然在一定程度上缓和了分割不足的现象，但仍出现了较多漏提取问题。针对两种问题，本文在空间路径和上下文路径中，分别加入CEB模块和RFB模块，二者的结合，扩大感受野的同时保证了细节信息提取的有效性，可以准确识别出目标物体，有效的解决了窗户提取存在的问题，证明了本文方法的稳定性。

为了进一步评估WBSNet的性能，本文对以上方法进行了定量对比，如表2所示。

从表2可以看出，WBSNet 的Precision得分最高，说明了本文方法精确率的优势。对比本文方法，DeepLabv3、DeepLabv3+和BiSeNetV2这3个模型网络提取效果不佳，F1-Score和IoU值均低于本文方法，可见所提出的WBSNet网络模型，由于加入了上下文嵌入块CEB和特征提取模块RFB，对模型的分割精度有明显的提升。WBSNet的召回率虽然比BiSeNet低2.79%，但是精确率提升了9.63%，说明了本文的网络可以较好的平衡这两个方面，即在提升精度的同时可以提取正确的目标像素最多，得到了更加精准的窗户提取。

表2 模型对比结果

2.4 消融实验

为了验证本文模块的有效性，依次加入CEB模块和RFB模块进行分割结果对比，所得结果如表3所示。

表3 消融实验结果

由表3可知，随着CEB模块的嵌入，Precision、F1-Score和IoU都得到了相应的提升，这是由于CEB模块是从全局角度出发，结合了窗户的密集分布特性。该模块捕获高级语义特征的同时增大感受野，增强了上下文语义信息的感知能力。基于此，进一步加入特征提取模块RFB，可见Precision、F1-Score和IoU分别提升到76.42%、81.82%和70.46%，该过程中评价指标的提高，是由于RFB模块考虑到窗户的局部空间特性，编码大量的局部细节信息，这是提取效果进一步提升的关键所在。通过逐次添加模块进行消融实验，除了Recall都得到了提升，再次说明本文网络可以较好的平衡各项指标，表明了WBSNet网络可以对目标实现有效分割，从而验证了WBSNet网络的可靠性。

3 结束语

针对现有方法在窗户提取任务中的漏提取和分割不足问题，本文基于BiSeNet网络模型，考虑窗户的自身特点，提出了一种面向街景影像的窗户双边分割网络。在网络设计中，上下文路径部分嵌入一个CEB模块，用于提供充足的感受野，缓解了漏提取的现象。另外，空间路径中RFB模块的嵌入，加强了网络的特征提取能力，进一步减少了由窗户间距较近引起的分割不足问题。实验利用自制的窗户街景影像数据集，通过多个模型对比和消融实验证明了本文方法的有效性和稳健性。

在未来的工作中，本文将考虑在模型通道中添加更多的语法约束作为后处理，并通过精确的轮廓分割来改进模型网络。本文还会继续扩充数据集，并且研究迁移学习的方法，以提高该模型对于窗户提取的泛化能力。

（原文有删减）

参考文献

[1] 戴激光，王杨，杜阳，等．光学遥感影像道路提取的方法综述[J]．遥感学报，2020，24(7)：804-823． (DAI Jiguang，WANG Yang，DU Yang，et al．Development and prospect of road extraction method for optical remote sensing image[J]．Journal of Remote Sensing，2020，24(7)：804-823．)

[2] 杨军，王恒亮．结合巴氏系数和灰度共生矩阵的遥感影像分割[J]．遥感信息，2019，34(3)：19-25． (YANG Jun，WANG Hengliang．Segmentation of remote sensing image combined with bhattacharyya coefficient and gray level Co-occurrence matrix[J]．Remote Sensing Information，2019，34(3)：19-25．)

[3] 王旭丹，郑福，刘松，等．聚类分析的伪距偏差特性研究[J]．测绘科学，2021，46(10)：46-53． (WANG Xudan，ZHENG Fu，LIU Song，et al．Research on characteristic of pseudorange biases based on clustering analysis[J]．Science of Surveying and Mapping，2021，46(10)：46-53．)

[4] 李新叶，宋维．基于深度学习的图像语义分割研究进展[J]．科学技术与工程，2019，19(33)：21-27． (LI Xinye，SONG Wei．Image semantic segmentation research process based on deep learning[J]．Science Technology and Engineering，2019，19(33)：21-27．)

[5] 刘巍，吴志峰，骆剑承，等．深度学习支持下的丘陵山区耕地高分辨率遥感信息分区分层提取方法[J]．测绘学报，2021，50(1)：105-116． (LIU Wei，WU Zhifeng，LUO Jiancheng，et al．A divided and stratified extraction method of high-resolution remote sensing information for cropland in hilly and mountainous areas based on deep learning[J]．Acta Geodaetica et Cartographica Sinica，2021，50(1)：105-116．)

[6] 李梦怡，朱定局．基于全卷积网络的图像语义分割方法综述[J]．计算机系统应用，2021，30(9)：41-52． (LI Mengyi，ZHU Dingju．Review on image semantic segmentation based on fully convolutional network[J]．Computer Systems & Applications，2021，30(9)：41-52．)

[7] 包晓敏，王思琪．基于深度学习的目标检测算法综述[J]．传感器与微系统，2022，41(4)：5-9． (BAO Xiaomin，WANG Siqi．Survey of object detection algorithm based on deep learning[J]．Transducer and Microsystem Technologies，2022，41(4)：5-9．)[8] WANG Yongzhi，XI Jing，MA Yuqing．Accurate extraction method for structural features of building facades through texture fusion[J]．IEEE Access，2020，8：195799-195809．[9] MA Wenguang，MA Wei，XU Shibiao，et al．Pyramid ALKNet for semantic parsing of building facade image[J]．IEEE Geoscience and Remote Sensing Letters，2021，18(6)：1009-1013．[10] RAHMANI K，MAYER H．High quality facade segmentation based on structured random forest，region proposal network and rectangular fitting[J]．ISPRS Annals of the Photogrammetry，Remote Sensing and Spatial Information Sciences，2018，IV-2：223-230．[11] Menglin，Dai，．Residential building facade segmentation in the urban environment[J]．Building and Environment，2021，199：107921．[12] LIU Hantang，XU Yinghao，ZHANG Jialiang，et al．DeepFacade：A deep learning approach to facade parsing with symmetric loss[J]．IEEE Transactions on Multimedia，2020，22(12)：3153-3165．[13] SIMONYAN K，ZISSERMAN A．Very deep convolutional networks for large-scale image recognition"[EB/OL]．2014：arXiv：1409.1556．https：//arxiv．org/abs/1409.1556"

[14] 陈良轩，于海洋，李英成，等．一种融合注意力机制的建筑物变化检测模型[J]．测绘科学，2022，47(4)：153-159． (CHEN Liangxuan，YU Haiyang，LI Yingcheng，et al．A model for detecting building changes incorporating attention mechanisms[J]．Science of Surveying and Mapping，2022，47(4)：153-159．)

[15] 吴强强，王帅，王彪，等．空间信息感知语义分割模型的高分辨率遥感影像道路提取[J]．遥感学报，2022，26(9)：1872-1885． (WU Qiangqiang，WANG Shuai，WANG Biao，et al．Road extraction method of high-resolution remote sensing image on the basis of the spatial information perception semantic segmentation model[J]．National Remote Sensing Bulletin，2022，26(9)：1872-1885．)

【作者简介】戴激光（1978—），男，黑龙江双鸭山人，教授，博士，主要研究方向为时空信息智能采集与服务。

daijiguang@lntu.edu.cn

【基金项目】国家科学自然基金项目（42071428）

【引用格式】戴激光，陈桐．一种用于街景影像窗户提取的神经网络［Ｊ］．测绘科学，２０２３，４８（３）。

转自：“测绘学术资讯”微信公众号

如有侵权，请联系本站删除！

上一篇： 2023年高考测绘专业院校参考
下一篇： InSAR火山形变监测与参数反演研究进展

投稿问答最小化 关闭

一种用于街景影像窗户提取的神经网络模型

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

一种用于街景影像窗户提取的神经网络模型

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭