改进LinkNet的高分辨率遥感影像建筑物提取方法
张立亭,孔文学,罗亦泳,邓先金,夏文生
(东华理工大学 测绘工程学院,南昌,330013)
摘要:针对现有的遥感影像建筑物提取方法存在着效率低下、精度不高等问题,该文利用轻量型分割网络LinkNet框架构建出新的建筑物提取全卷积网络。首先,设计三层卷积模块替换LinkNet中的残差层作为新的编码块,有效减少网络参数,加快了网络训练速度。其次,融合增强感受野模块聚合多尺度上下文信息,有利于图像特征细节的恢复,从而提高网络分割精度。最后,综合上述两点构建出基于深度学习的高性能建筑物自动提取网络。在相应建筑物数据集上进行实验结果表明,本文构建的全卷积网络比已有的建筑物提取网络SE-Unet综合预测精度更高,取得82.80%的均交并比和95.99%的召回率,同时,在提取建筑物的完整度、边界分割精度等方面具有较好的效果。
0引言
随着遥感技术的发展,获取的遥感影像分辨率不断提高,其包含的信息也更加丰富[1],高分辨率遥感影像能够提供地表海量的、具有丰富纹理和光谱特征的地物信息,在众多领域得到了应用。建筑物作为遥感影像中十分重要的特征,其位置和空间分布等信息对于地图测绘、城市规划以及智慧城市的建设具有重大意义。近年来,研究者尝试使用多种方法来实现高分辨率遥感影像中建筑物的自动提取,文献[2]融合了对象的思想和Boosting算法,通过构建对象网络关联图像分割和识别,实现了建筑物的准确提取;文献[3]将光谱和形状特征相结合,实现了建筑物的自动提取;文献[4]提出一种增强的形态学建筑物指数(enhanced morphological building index,EMBI),并利用该指数和地物的几何形状约束,实现了高分辨率建筑物的自动提取。上述传统的算法虽然能实现自动提取建筑物的目的,但是,总体精度不高、受影像质量影响大且较依赖于人工操作。因此,急需研究新的思路和方法来更快、更好地从高分辨率影像中自动提取建筑物。
当前,基于人工智能和机器学习遥感数据处理方法,特别是以深度学习为代表的图像识别、语义分割、目标检测等技术的发展,为从遥感影像中自动化提取建筑物提供了机遇和前景[5]。文献[6]提出了基于全卷积网络(fully convolutional network,FCN)的语义分割方法,能够实现图像像素级分类。在FCN基础之上,文献[7]提出一种U形对称网络U-Net,该结构能有效融合低维与高维特征,从而提高图像语义分割精度。文献[8]以U-Net结构为基础,提出一种卷积神经网络SE-Unet,其在编码器内使用特征压缩激活模块增加网络特征学习能力,在解码器中复用编码器中相应尺度的特征实现空间信息的恢复,对大小各异和形状不规则的建筑物具有良好的识别效果。文献[9]提出一种带洞型 U-Net++网络,其在建筑物提取方面也有良好表现。上述语义分割网络虽然在建筑物提取任务中取得了一定的效果,但整体性能还有待进一步提高。
基于上述情况,本文以轻量型网络LinkNet[10]为基础构建出性能更高的建筑物自动提取网络。将设计的三层卷积模块(three layer convolution module,TLCM)应用到LinkNet中,构建出一种新的建筑物分割网络T-LinkNet(TLCM-LinkNet);接着将接受域块(Receptive Field Block,RFB)[11]与T-LinkNet相融合,构建出效果更佳的建筑物提取网络TR-LinkNet(TLCM-RFB-LinkNet)。上述的两种建筑物提取网络不仅需要的网络参数较少、训练速度较快,而且能提升预测结果的综合精度。
1 方法
1.1 LinkNet
LinkNet是一种新的深度神经网络体系结构,可以在不显著增加参数的情况下进行学习。LinkNet利用了跳跃连接(skip connections)、残差块(residual blocks)[12]和编码器-解码器(Encoder-Decoder)架构的优点,因而具有高效的语义分割性能。最初的LinkNet使用ResNet18作为编码器,是一种相当轻但性能优越的网络。LinkNet在几个基准测试上都显示了很高的精度,并且运行速度较快。
LinkNet主要由编码器和解码器两部分组成,并在每个卷积层之间使用批处理标准化(batch normalization,BN)[13]和修正线性单元(rectified linear unit,ReLU)。相较于之前的分割神经网络体系结构,LinkNet的特点是将每个编码块与解码块联系起来,即每层编码器的输入都被旁路到相应解码器层的输出中,这样可以恢复解码器及其上采样操作时丢失的空间信息。此外,解码器在每一层共享由编码器学习的知识,因而可以使用更少的参数。
1.2融合三层卷积模块改进的LinkNet
LinkNet使用编码器-解码器架构有较大的灵活性,可以在不改变整体网络架构的前提下自主的定义编码器和解码器。但LinkNet也存在一些不足,例如,LinkNet的编码器是以一个步长为2的7×7卷积,并接着一个步长为2的3×3最大池化的初始块开始,然而,连续的两次下采样会损失特征信息,在解码阶段难以恢复细节信息[14],此外,使用较大尺寸的卷积核会占用较多的计算资源,从而影响模型训练效率。为弥补上述不足,参考改进型Inception模块[15]的卷积分解方法,使用三个步长为1连续的3×3的卷积代替原始的步长为2的7×7卷积,这样即能获得更快的训练速度又能减少下采样次数,修改后的初始块称为Stem Block。
经典的分割网络U-Net使用双层卷积作为对应的编码块和解码块,能有效的捕捉和还原图像特征,因而具有较好的分割性能。本文通过增加卷积层数构建出一种新的三层卷积模块TLCM,更加有利于整个网络对图像特征的捕捉与提取。三层卷积模块的具体结构借鉴了使用full pre-activation策略[16]的残差块,该残差块十分有利于网络信号的传递。为获取最优的三层卷积模块,设计了一系列的结构方案。具体的结构设计方案见表1,对应的结构示意见图1。
表1 三层卷积模块结构设计方案
方案序号 | full pre-activation策略 | Shortcut Connection结构[12] |
1 | × | × |
2 | × | √ |
3 | √ | × |
4 | √ | √ |
注:表中×表示不采用,√表示采用。
按表1中的方案分别构建三层卷积模块并充当调整后的LinkNet的编码块,然后,在相同的实验条件下进行融合实验,具体的融合实验结果见表2。
表2 不同三层卷积模块融合实验结果
方案序号 | 每期训练时间/s | mIoU/(%) | Precision/(%) | Recall/(%) |
1 | 1680 | 81.76 | 96.79 | 95.64 |
2 | 1667 | 73.20 | 98.03 | 91.69 |
3 | 1717 | 82.71 | 97.01 | 95.87 |
4 | 1709 | 76.03 | 97.67 | 92.90 |
LinkNet | 804 | 79.35 | 96.56 | 94.83 |
由表2可以得出,应用full pre-activation策略与没有应用该策略的三层卷积模块相比,相应的融合网络训练综合精度有所提升,而且训练时间相差较小,因此,在三层卷积模块中应用这一策略。此外,还可以得出使用Shortcut Connection结构与没有使用该结构的三层卷积模块相比,相应的融合网络训练综合精度有所下降,该结构不能给本文构建的浅层网络带来增益,因此,在三层卷积模块中弃用这一结构。其中,方案3虽然训练时间比LinkNet有所增加,但3项评价指标均有提升。
最终,采用方案3构建三层卷积模块与LinkNet融合构建出新的建筑物分割网络T-LinkNet。T-LinkNet的具体结构见图2,图中左半部分为编码器,右半部分为解码器。需要注意,在T-LinkNet中除了Stem Block的卷积层在后面接BN和ReLU外,其他网络结构均采用full pre-activation策略,使网络整体信号传递更加顺畅,有利于网络训练。
1.3 增强感受野模块
增强感受野模块能够融合多尺度上下文信息,有利于在上采样过程中恢复更多图像细节,从而提高网络性能。目前,常见的增强感受野模块的构建有两种方案,一种是基于池化(pooling),另一种是基于扩张卷积(dilated convolution)[17]。池化可以在不增加网络参数的情况下方便快捷地增大感受野。扩张卷积则是一种能够在图像语义分割应用中显式调整滤波器视野以及控制深度卷积神经网络计算的特征响应分辨率的强大工具,其可以在不损失分辨率或覆盖范围的情况下,扩大感受野的回旋支持面。此外,扩张卷积还能提高中间特征图的分辨率,产生更准确的预测,同时保持相同的计算成本[18]。
基于池化构建的增强感受野模块有SPP-net[19]中使用的空间金字塔池(spacial pyramid pooling,SPP)和PSPNet[20]中使用的金字塔池模块(pyramid pooling module,PPM)这两个模块都能在不显著增加计算量的前提下有效增强感受野。基于扩张卷积构建的增强感受野模块有DeepLabv2[21]中使用的空洞空间金字塔池(atrous spacial pyramid pooling,ASPP)和DeepLabv3[22]中使用的改进型ASPP模块以及RFBNet[11]中使用的RFB及其改进型RFBs。上述网络在使用相应的增强感受野模块后都实现了较好的语义分割性能,因此,可以应用增强感受野模块提升网络分割性能。
1.4 融合增强感受野模块的T-LinkNet
D-LinkNet[23]在LinkNet的基础上加入了增强感受野模块,使其在道路提取任务中获得了成功。基于此,将增强感受野模块添加到T-LinkNet中,以期获取更优的建筑物提取网络。为挑选出性能最佳的增强感受野模块,进行了对比实验。具体的实验流程为:首先,筛选出以往表现较好的增强感受野模块,能节省时间更快地找到效果最佳的模块。其次,为减小添加的增强感受野模块对T-LinkNet训练和识别效率的影响,同时,在不影响增强感受野模块的正常功能的前提下,对某些增强感受野模块进行实验调整。主要对两方面进行调整,一方面使用1×1卷积减少输入到模块的特征图通道数,提升相应模块的运算效率;另一方面选择合适的池化尺寸组合和扩张率组合。最后,将筛选并调整后的增强感受野模块插入T-LinkNet的解码器和编码器之间进行融合实验,依据综合评价指标挑选出最优的增强感受野模块。具体的实验调整方案以及对应的融合网络训练结果见表3。
表3 不同增强感受野模块与T-LinkNet融合结果对比
增强感受野模块 | 实验设置 | 每期增加的训练时间/s | mIoU/(%) | Precision/(%) | Recall/(%) |
PPM | (1,2,4,8) | 52 | 82.37 | 96.93 | 95.79 |
ASPP | (2,4,6,8,1/4) | 263 | 81.96 | 97.05 | 95.54 |
改进型ASPP | (1,2,4,6,1/4) | 212 | 82.71 | 96.64 | 96.13 |
(1,3,5,7,1/4) | 214 | 82.48 | 96.96 | 95.81 |
RFB | (1,3,5) | 209 | 82.80 | 96.88 | 95.99 |
RFBs | (1,3,5) | 279 | 82.24 | 96.96 | 95.71 |
注:括号中的1/4表示将输入到模块的特征图进行1/4倍的通道转换。
从表3可以看出,RFB增强感受野模块与T-LinkNet融合得到的网络综合训练精度最优且训练增加的时间较少,而其他模块与T-LinkNet融合效果不佳。因此,将RFB与T-LinkNet融合构建出更优的建筑物提取网络TR-LinkNet。TR-LinkNet框架是在图2的T-LinkNet结构中间位置插入图3的RFB模块构成。
RFB是模拟人类视觉系统中接受域的大小和偏心度的配置形成的,可以增强轻量级卷积神经网络的深度特征[10](具体结构见图3)。该模块采用多分支结构,每个分支都包含转换层(本文采用1/4倍的通道转换)、对流层以及扩张卷积层。具体实现流程为:首先,将各个分支的输出结果进行级联并通过1×1卷积得到多尺度融合结果。然后,将多尺度融合结果与通过短路连接的输入特征图相加得到模块输出。
2 实验
2.1数据
2.1.1数据来源
本文实验数据为马萨诸塞州建筑物数据集 [24],该数据集包括151张波士顿的航拍影像,每张影像的尺寸为1500×1500,地面分辨率为1m,覆盖面积为2.25km2,因而整个数据集大约覆盖340 km2的区域。数据被随机分成包含137张影像的训练集,包含10张影像的测试集和包含4张影像的验证集。数据集主要覆盖城市和郊区,囊括了各种规模的建筑,包括独立的房屋和车库。
2.1.2数据预处理
1)转换标签图像。
马萨诸塞州建筑物数据集的建筑物标签图像为合成的假彩色图像,而在使用卷积神经网络进行训练时,要求标签图像为相应的灰度图像,因此,将三通道的假彩色标签图像转换为对应单通道的灰度图像,便于后续的模型训练。
2)切割原始影像和对应标签图像。
对于卷积神经网络训练来说,卷积网络模型自身的网络参数较多,直接采用大图进行训练,对计算机的性能要求很高,而且训练速度较慢,因此,需要对大尺寸影像及其对应标签图像进行切割。综合考虑后,一幅大图将分割成36张256×256的小图,大幅增加训练样本的数量。训练影像及其对应标签图像切割前后对比如图4所示。
切割后的马萨诸塞州建筑物数据集,包含4932张训练图像,144张验证图像和360张测试图像,共计5436张图像。切割得到的大量数据为网络训练奠定了良好的基础,有利于训练出高性能网络。
2.2模型训练
使用全卷积深度神经网络构建图像分割模型,在进行训练时大量卷积运算会占用较多的计算机内存和显存,对硬件要求较高。受实验条件的限制,会在配置方面寻求一个平衡,以保证网络训练顺利完成。本文基于深度学习框架PyTorch构建相应的建筑物提取网络,参照已有环境配置并结合实际条件构建深度学习实验环境,基础配置如表4所示,重要软件配置如表5所示。
表4 基础环境配置
名称 | 系统 | CPU | 显卡 | 内存 | 硬盘 |
配置 | Window10 | Intel Pentium G4560 | NVIDIA GTX950M | 8GB | 500GB |
表5 重要软件配置
名称 | GPU-Driver | CUDA | Python | PyTorch | PyCharm |
配置 | 441.22 | 10.2 | 3.7 | 1.8.1 | 2020.1.3 |
通过多次试验,综合考虑网络的计算效率、结果精度以及硬件3个方面,设置batch size为4,epoch为20,iteration为25 000,使用交叉熵损失函数BECLoss作为训练网络的目标函数,进行目标函数最小化得到最优的模型。
为了使构建好的网络获取最佳的训练效果,使用多种训练优化方法,例如,SGD(momentum=0.9)、RMSProp(alpha=0.9)和Adam(betas=[0.9,0.99]),在相同的环境配置下对网络进行训练,同时,所有的训练优化方法统一使用CONSTANT学习率策略即设置学习率为一个固定值,根据已有经验设置学习率为0.001。具体的实验结果见表6。
表6 不同训练优化方法结果比较
分割网络 | 训练优化法 | 每期训练时间/s | mIoU/(%) | Precision/(%) | Recall/(%) |
T-Linknet | SGD | 1691 | 75.52 | 96.71 | 93.24 |
RMSprop | 1717 | 82.71 | 97.01 | 95.87 |
Adam | 1732 | 76.52 | 97.33 | 93.27 |
TR-Linknet | SGD | 1907 | 74.92 | 95.43 | 94.38 |
RMSprop | 1926 | 82.80 | 96.88 | 95.99 |
Adam | 1944 | 79.72 | 97.37 | 94.46 |
从表6可以看出,本文构建的两种建筑物分割网络在使用三种训练优化法时,不同优化方法花费的训练时间相近,使用RMSprop训练优化法进行模型训练的综合精度最高。综合考虑训练效率和精度因素,采用RMSprop训练优化方法对构建好的网络进行训练有较高性价比。
2.3结果及分析
对构建好的网络分割结果做定性与定量评价时,需要与现有的分割网络进行对比。以U-Net为基础的卷积神经网络SE-Unet[8]具有较好的建筑物分割效果,带洞型U-Net++[9]也表现出良好的建筑物提取性能。本文实现了上述两种网络,并与自主构建的网络在相同的环境配置下进行对比实验。
2.3.1定性分析
为验证本文构建的建筑物提取网络的有效性,将其应用于包含不同类型建筑物的实验场景中,并对其识别和提取性能进行定性分析。在实验中,将测试集输入到训练好的T-Linknet和TR-Linknet中进行建筑物预测。同样,将测试集输入到训练好的SE-Unet和带洞型U-Net++中进行建筑物预测,进而与本文构建的网络形成对照。最后,随机从上述网络预测结果中选取4张包含典型建筑物群的影像进行网络的定性分析。不同分割网络建筑物预测结果如图5所示(图中红色框选中的为预测结果差异明显的区域)。
由图5可以看出,带洞型U-Net++的提取效果较差,主要表现为预测结果内部空洞、边界粗糙和不完整,而SE-Unet的建筑物分割效果要优于带洞型U-Net++,但是其对于微、小型的建筑物以及建筑物的细节部分的预测效果不佳,主要表现为预测结果不完整和边界不规则。相比之下,本文提出的两种建筑物提取模型具有更好的提取效果,其中T-Linknet适合提取形状规则的建筑物,TR-Linknet则能有效识别形状复杂的建筑物的细小边界。
2.3.2定量分析
在定量评价中,选用均交并比、精准率以及召回率3个指标对测试集中360幅影像的建筑物提取结果进行评定。
交并比(IoU)通常被称为 PASCALVOC交叉联合度量,是图像分割定量评价系统中最常用的一种性能度量方法,可以理解为预测区域和实际区域交集除以两者的并集,而均交并比是每个分类IoU的平均值(本文共有建筑物类和非建筑物类两类)。
表7 精度评价混淆矩阵
| 实际正类 | 实际负类 |
预测正类 | 真正(True Positive,TP) | 假正(False Positive,FP) |
预测负类 | 假负(False Negative,FN) | 真负(True Negative,TN) |
定量评价结果如表8所示。从表中可以看出,TR-LinkNet有两项分割指标最优,mIoU和Recall分别达到82.80%和95.99%。SE-Unet使用了特征压缩注意力机制,增强了网络对非建筑物类的判定能力,对应Precision较高;本文构建的网络易受与建筑物类具有相似特征的非建筑物类的干扰,导致Precision偏低。虽然,本文构建的两种建筑物分割网络Precision偏低,但综合预测精度均高于SE-Unet和带洞型U-Net++,因而具有更优的建筑物提取性能。
表8 建筑物提取精度对比
方法 | mIoU | Precision | Recall | F1-score |
SE-Unet | 82.23 | 97.26 | 95.50 | 96.37 |
带洞型 U-Net++ | 80.53 | 97.21 | 94.87 | 96.03 |
T-LinkNet (ours) | 82.71 | 97.01 | 95.87 | 96.44 |
TR-LinkNet (ours) | 82.80 | 96.88 | 95.99 | 96.43 |
3 结束语
针对现有的遥感影像建筑物提取方法存在着效率低下、精度不高等问题,本文以轻量型网络LinkNet为基础构建出建筑物提取网络T-LinkNet和TR-Linknet,并在马萨诸塞州建筑物数据集对上述两种网络进行遥感影像建筑物提取的训练和测试。实验结果表明,基于LinkNet构建的两种建筑物提取网络与SE-Unet和带洞型U-Net++相比较,具有更优秀的分割性能,其中TR-Linknet的精度评价指标mIoU和Recall分别达到了82.80%和95.99%。此外,本文构建的全卷积网络具有参数少、效率高的优点,在建筑物提取完整度以及边界分割精度方面也具有良好的效果。然而,受实验条件限制,构建的模型泛化能力还存在不足,下一步需要扩充训练样本并调整网络深度,以提升模型泛化能力;此外,构建的模型对微、小型建筑物提取效果欠佳,要继续研究提升深度学习模型精细化提取性能的方法。
作者简介:张立亭(1966—),男,湖北黄梅人,教授,博士,主要研究方向为土地信息技术。
E-mail:904118206@qq.com
基金项目:国家自然科学基金项目(41861058)
转自:“测绘学术资讯”微信公众号
如有侵权,请联系本站删除!