佳作分享| TGRS：MSACon: 基于环境信息挖掘空间注意力的道路提取

2023/5/8 16:16:52　阅读：113　发布者：

原名：MSACon: Mining Spatial Attention-Based Contextual Information for Road Extraction

译名：MSACon: 基于环境信息挖掘空间注意力的道路提取

期刊：IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING

发表时间：2021.08

DOI：10.1109/TGRS.2021.3073923

1.研究背景

在深度学习方法的推动下，道路提取在城市规划和自动驾驶中得到了广泛应用。然而，即使在高分辨率遥感图像中，提取遮挡区域周围的道路也是非常具有挑战性的。

现有的道路提取方法将道路提取视为一种孤立的二值分割任务，忽略了光学图像本身的环境背景信息，特别是道路与建筑物之间潜在的依赖关系。本文观察道路和建筑物的分布，发现道路通常位于建筑物附近，而且不是离建筑物太近。了解道路和建筑物之间潜在的空间上下文关系可以帮助解决遮挡问题，并找到特征难以区分的道路。

2.实验数据集

在表1中详细介绍了本文中使用的四个数据集，阐明区别以及将用于什么。

1.马萨诸塞州建筑数据集。该数据集具有像素级的地面真实道路和建筑掩模(包含137张训练图像，4张验证图像和10张测试图像)，具有1500像素∗1500像素。将所有图像裁剪成500 * 500且无重叠，并将大小调整为512 * 512作为网络的输入。

2. 马萨诸塞州建筑数据集的部分数据集。从数据集1中选取了典型图像，并建立了一个包含723张训练图像、22张验证图像和64张测试图像(占70%以上)的子集。无论道路分布如何，只要图像中有均匀且足够多的建筑物，图像就会被选中。

3. 马萨诸塞公路数据集，没有建筑标签。使用之前训练好的数据集1上的建筑物提取模型来预测数据集3上的建筑物，以探索低质量SDM辅助信息是否仍然有利于提高道路提取性能。

4. 从OpenStreetMap (OSM，一个开源的地理数据数据库)下载的ARBD数据集，包含中心线数据和道路类型，共三张非常高分辨率(0.27 m/像素，比马萨诸塞州数据集高4倍)的卫星图像，所有图像都使用滑动切割方法进行裁剪，重叠80像素，并将大小调整为512 * 512。将训练子集(1089张图像)和测试子集(152张图像)按照大约7:3的比例进行划分，测试子集分别从包含10212∗4000像素的第2张卫星图像中划分出来(涵盖22.9平方公里的训练和2.97平方公里的测试)。

表1 数据集描述

3.研究方法

1.道路与建筑物之间距离统计，SDM图

道路和建筑之间存在着密切的关系:建筑沿路而建，很少孤立分布;道路也为旅行服务，作为一个基本的交通设施贯穿社区。通过计算真实卫星图像中道路和建筑物的分布来验证此想法。∂表示在边界上，−表示边界内的像素，+表示非建筑像素，即边界外的像素。所以距离符号φ (i, j)单位代表像素(i, j)到建筑物的距离

d(·)表示非建筑像素(i, j)与其最近的建筑边界像素(p, q)之间的欧氏距离，inf表示欧几里得距离的下限。在本文的实验中，非建筑像素归一化为(0,1)，其他像素(包括建筑像素和边界像素)重置为0。

图1显示了在Bradbury数据集(ARBD)中，Austin Region的Kyle Bradbury2收集的标有道路和建筑物的麻省建筑数据集(Massachusetts Building Data Set1)和用于建筑物和道路检测的航空图像物体识别数据集(Aerial imagery object identification Data set)中有符号距离的分布。统计数据表明，建筑物一般都位于道路周围，不太近也不太远。道路的可能分布可以从建筑物的分布大致推断出来。

图1所示。(a)马萨诸塞州建筑数据集和(b) ARBD中每个非建筑像素到建筑边界的有符号距离的分布。横轴:非建筑像素归一化符号距离。纵轴:符号距离分布的PDF。

图2所示。(c) SDM是根据(b)建筑物提取结果计算的，其中包含了丰富且冗余的道路信息。红线:地面真相路区域。绿色虚线:有树木的阴影区域。在(a)遥感图像中道路提取是一个具有挑战性的区域，同时在(c) SDM中保持良好的连续性。

2.网络结构

该架构包括道路编码器(以光学图像为输入)、SDM编码器(以模糊SDM为输入，由不准确的建筑物预测结果计算)、膨胀桥和道路解码器。结构概况如图3所示。

1）道路编码器:道路编码器通过一系列剩余卷积块从光学图像中提取深度特征，并逐层降低特征图的分辨率。每一层都存在一个非线性变换函数Fl，当层的输入和输出分别为xl−1和xl时，层的转换可以表示为xl = Fl(xl−1)。

图3 所示。道路提取网络MSACon的结构，由道路编码器(浅紫色)、SDM编码器(浅绿色)、膨胀桥(青色)和道路解码器(深紫色)组成。道路和SDM编码器分别从光学图像和SDM中提取深度特征。道路解码器输出像素分割概率图

图4所示。扩张型桥墩结构在道路提取网络MSACon中提出。En_4表示编码器En4的特征，En_4表示放大桥后的特征。并行路径输出被添加到最终结果中。每条并行路径由一系列膨胀速率不同的膨胀卷积层组成。

2)膨胀桥:5个编码器块后，特征图的大小减小到32∗32∗512。这样，网络可以学习更深层次的特征，易于优化。后续卷积核的接受域逐渐扩大，以感知上下文信息。膨胀卷积层以级联方式和并行方式进行堆叠，如图4所示。

3) SDM编码器:对于SDM编码器，首先通过(1)计算SDM，根据建筑预测结果，这是从最先进的建筑提取神经网络推断出来的。辅助SDM信息是由原始光学图像产生的，而不是额外的资源。如图5所示，SDM映射与光学图像进行像素到像素的配准，并提供互补信息，用于从多模态图像中挖掘上下文信息。

图5所示。计算辅助SDM信息作为SDM编码器的输入的方法。

4)道路解码器:道路解码器从道路编码器和SDM编码器中获取一对特征图作为输入。道路编码器的特征与道路解码器的前一个特征相连接，通过空间注意块保持更原始和清晰的细节。道路解码器通过上采样、卷积、批量归一化和转置卷积层来恢复原始分辨率。使用sigmoid激活作为网络预测阈值函数。

3.空间注意融合机制

基于空间注意的融合机制空间上下文信息感知对于扩大道路提取任务的接受域至关重要，特别是对于光学卫星图像中长、薄、连续、复杂的道路。基于空间注意力的融合机制由两种融合块组成:融合块1将这两种特征都作为输入，聚焦在SDM中连续的区域，在光学图像中被打破，但周围有建筑物。融合块2只将道路特征作为输入，专注于细化潜在区域。

融合块1关注En_3和En4在光学图像中寻找潜在的道路区域，并引导Fb_4特征在SDM中寻找连续区域。来自两个编码器层的特征被融合并发送到焦点单元，以挑出那些连续的和潜在的道路。这些道路在光学图像上看起来像道路，但在SDM上是连续的，在光学图像上是模糊或破碎的。

焦点单元由一系列卷积、批量归一化和sigmoid激活层组成。最终输出是与原始编码器特征En3的元素乘法。然后通过分析激活信息和上下文信息来过滤特征图。同样，来自SDM的反馈信息在另一个注意路径中进行，以过滤通过跳跃连接变量传播的特征。然后，将上采样特征与注意力块的结果相乘。最后，学习空间上下文信息，有助于提高像素分类的一致性。

在道路编码器和前解码器层恢复的原始特征之间应用融合块2，以减少后续解码器层中来自SDM编码器的误导性特征。融合块2的结构如图6中浅色区域所示，仅用于De_2和De_1层。

图6所示。基于空间注意的MSACon融合机制。融合块2集中于来自道路编码器和SDM编码器输出的上下文信息。融合块1的设计与融合块2的浅色部分相同，而仅在De_2和De_1中使用了道路编码器和前解码器层的特征。浅紫色箭头:来自Road Encoder的特性。浅绿色箭头:来自SDM编码器的特性。融合后，箭头的颜色增强表明特征被聚焦和整合。

4.实验模型

为了验证性能，提出的道路提取网络MSACon与几种最先进的方法进行了比较。

1）RCNN:提出了一种细化的道路结构CNN，并使用VGG模型作为骨干。根据对于到道路区域的有符号距离，根据经验公式设计基于道路结构的损失函数。

2）ResUnet:道路提取神经网络由残差单元构建，其架构与Unet相似。

3）CasNet:提出了一种新型的基于VGG的级联网络，可以同时获取道路区域和道路中心线。

4) Dlinknet:提出了一种道路语义分割神经网络，该神经网络采用编码器-解码器结构LinkNet作为主干，中心部分附加扩张卷积层，并在ResNet34上预训练编码器来捕获上下文信息。在接下来的实验中，我们使用Dlinknet作为我们的基线。

由于CasNet、ResUnet和Dlinknet方法的性能较好，近年来在道路提取任务中得到了广泛的应用，因此我们对这些方法进行了比较。

1) JointNet:提出了一种同时满足道路和建筑物提取要求的神经网络JointNet，该网络设计了密集的卷积块，并实现更大的接受场。

2) SIINet:以DeeplabV3+为骨干，通过沿宽度和高度对特征张量进行分割和优化，形成名为SIINet模型道路上下文信息的空间信息推断网络。

我们与JointNet和SIINet进行了比较，因为这些方法挖掘了道路提取的上下文信息。

1) MSACon_BE:提出的模型使用建筑提取结果计算辅助SDM信息作为输入。使用现有的建筑物提取网络MFRN从光学图像中提取建筑物。MFRN通过多特征复用网络设计了全密集连接编码器和解码器层和压缩方法。

2) MSACon_BGT:MSACon方法的上限，使用地面真值构建掩码来计算SDM作为SDM编码器分支的输入。为了使用建筑提取结果验证MSACon的鲁棒性，我们还在接下来的实验中报告了我们的MSACon的上限。

4.实验结果

1.数据集1

基于建筑提取结果，与目前最先进的方法在数据集1上的定量比较如表2所示。与不同方法相比，MSACon具有丰富的SDM中隐含的来自建筑的道路信息和基于空间注意力的机制，获得了最好的性能。

图7显示了两个分割示例。在ResUnet和RSRCNN模型中出现分割错误，如道路破损或道路边缘之字形。它们不能消除道路边缘并捕获足够的环境信息用于道路提取。虽然Dlinknet和CasNet方法可以缓解遮挡，但如果在光学图像中不明显，它们在分割时也有困难。

仅从光学图像中识别道路不足以捕捉有遮挡或阴影的道路。结果JointNet附近的灌木丛被错误地识别为道路。此外，SIINet在庇护区域周围表现不平衡，存在破损道路。

如果在远离建筑物的光学图像中清晰，MSACon在道路周围表现良好。图7(a)和(m)中的高速公路就是一个例子:由于建筑分散，道路在光学图像中是清晰的，但在SDM中却不是连续的，这可能会对道路提取性能产生负面影响。

2.数据集2

本文的灵感来源于道路与建筑的空间分布关系，对于建筑位于道路沿线的地方非常适用。为了更好地体现MSACon的优势，数据集2上进行了实验，该数据集的数据分布更服从于近似高斯分布。

表3显示了与在数据集2上测试的最先进方法的定量比较，所有方法都比在数据集1上表现得更好。更详细地查看图7(c) - (f)和(o) - (r)，可以看到所提出的模型在数据集2上训练时表现得更好一些。

表2在数据集1上与其他基线的定量比较(粗体:最佳;强调:次好)

表3在数据集2上与其他基线的定量比较。(粗体:最好;强调: 次好)

图7所示。在数据集1和2上的基线道路提取性能的插图。每个示例占用两行。(a)及(m)光学图像。(b)和(n)地面真相道路面具。(c)和(o)数据集1上的MSACon_BGT(1)。(d)和(p)数据集1上的MSACon_BE(1)。(e)和(q) MSACon_BGT(2)在数据集2。(f)和(r) MSACon_BE(2)上的数据集2。(g)和(s) SIINet。(h)和(t)联合网络。(i)及(u)联络网。(j)和(v) CasNet。(k)和(w) ResUnet。(l)和(x) RSRCNN。绿色方框突出了难以提取的区域。最好以彩色观看。

3.消融实验

消融模型总结如下：

1) MSACon-a-1:为了说明SDM编码器的必要性，制作了一个四通道输入图像，其中三通道RGB图像和一通道SDM提取道路。

2) MSACon-a-2:从MSACon_BE中删除了基于注意的融合机制，以验证SDM分支提取的辅助信息，命名为MSACon-a-2。这意味着反馈信息在没有注意机制的情况下被发送到网络中。

3) MSACon-sdm:从MSACon_BE中删除了SDM分支，以验证注意力机制的有效性，命名为MSACon-sdm。也就是说，在解码器部分只设计了空间注意机制，并将第一解码器层前的融合块1替换为融合块2。

可以看到，MSACon_BE在IoU上提高了67.0%，在Precision上提高了82.7%，在Recall上提高了79.4%，在F1上提高了81.1%。比较“MSACon-a-1”和“MSACon-asdm”，在“MSACon-a-1”中多模态图像之间固有的上下文连接没有被充分挖掘，从而导致非常有限的性能改进。

从噪声SDM中挖掘道路上下文信息，并展示SDM编码器和基于空间注意力的融合机制是如何工作的。例如，图8中那些被灌木遮蔽的道路和被建筑物遮蔽的道路，人类很难区分，更不用说神经网络了。而SDM中硬区域周围的值是连续的、明显的。

图8所示。消融比较结果。(a)和(h)输入图像。(b)和(i)地面真相。(c)和(j) MSACon_BE。(d)和(k) mscon -a-2。(e)和(l) MSACon-sdm。(f)和(m) MSACon-a-1。(g)和(n) MSACon-a-sdm。绿色方框突出了难以提取的区域。最好以彩色观看。

表4 在数据集2上对建议的MSACON进行消融研究（粗体：最佳；下划线：次好）

5研究结论

本文提出了一种基于空间注意力的道路提取网络，利用道路和建筑物之间的上下文关系MSACon挖掘光学图像本身隐含的潜在道路信息。这是第一个应用建筑物的SDM，并将其分布作为辅助信息来推断光学图像中潜在道路的工作。MSACon挖掘道路和建筑物之间隐含的上下文信息，从而推断出在光学图像中隐藏的道路：

1)所提出的MSACon挖掘了道路和建筑物之间隐含的上下文关系，在建筑物提取结果不准确和SDM信息模糊的情况下提高了道路提取性能。

2)本文提出的MSACon算法整体上提高了道路提取性能，特别是在处理沿路有建筑物的区域和有遮挡的图像时表现较好。

未来，将更多地关注挖掘更多场景下的空间语境信息，设计一个联合学习神经网络，同时提取道路和建筑物，可以双向改进建筑物提取和道路提取任务。

6文章引用格式

XU, Y., CHEN, H., DU, C. and LI, J. MSACon: Mining Spatial Attention-Based Contextual Information for Road Extraction. IEEE Transactions on Geoscience and Remote Sensing, 2022,60:1-17

转自：“科研圈内人”微信公众号

如有侵权，请联系本站删除！

上一篇： 学术资讯| 周沙研究员在Nature Climate Change发文阐明陆-气过程对全球径流变化的影响机理
下一篇： 资源分享| 王桥：地表异常遥感探测与即时诊断方法研究框架

投稿问答最小化 关闭

佳作分享| TGRS：MSACon: 基于环境信息挖掘空间注意力的道路提取

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

佳作分享| TGRS：MSACon: 基于环境信息挖掘空间注意力的道路提取

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭