2023/6/19 9:44:54 阅读:130 发布者:
原名:Semantic segmentation of water bodies in very high-resolution satellite and aerial images
译名: 在极高分辨率的卫星和航拍影像中对水体进行语义分割
期刊:RSE Remote Sensing of Environment
发表时间:2023.0112
DOI:10.1016/j.rse.2023.113452
1.研究背景
监测大规模洪水灾害需要高分辨率的光学卫星和航空影像。为了保证地理信息产品具有尽可能高的空间、时间分辨率和信息内容,遥感影像应急地图绘制算法必须同时使用各种采集平台和传感器的数据。然而,由于水体在这类影像中的光谱反射特性、大小和形状变化显著,在自动进行水体分割时存在挑战。现有语义分割网络虽然在实验结果上取得了一些好的结果,但主要集中在有限地理覆盖范围、单一传感器上无法很好扩展到时间其他情况下进行应用。因此,在极高分辨率的卫星和航空影像中对地表水体进行语义分割具有重要意义。
2.研究数据
根据1120幅分布在全球的高分辨率卫星和航空影像制作了一个参考数据集,用于训练、测试和验证水体分割模型。样本通过分层随机抽样程序选择(图1)。考虑到数据可用性,采集时间覆盖不同季节,图像采集的最大云量百分比设定为5%。图像掩膜分为水和陆地两类。首先应用一个简单的NDWI阈值来提取一个初始的水掩膜,通过有经验的操作员的手动调整和质量控制来反复改进(图2)。也从OpenStreetMap为每个样本制作了水体掩膜和反复改进。图像和掩膜经过随机打乱后被分为训(50%)、验证(25%)和测试(25%)数据集,然后被分割成256×256像素大小的非重叠瓦片。最终的数据集包含大约90,000个瓦片和2800平方公里。
图1.用于水体分割方法的训练、验证和测试的参考数据样本的空间分布:来自多个传感器(GeoEye-1、WorldView-2、WorldView-3和四个不同的机载相机系统)的洪水分割的独立测试样本。
图2.对于不同的土地覆盖设置,具有成对图像和相应的水掩膜的参考数据样本的示例。
为了测试训练完毕的模型在洪水场景中的表现,我们选择了四个洪水爆发的六个地点(德国德累斯顿2013 年,法国兰德斯2019年,印度比哈尔2020年,德国明登、布吕克和阿尔滕纳2021年),对于每个测试区域,我们通过手动快速划定水的范围,并确保在不同经验的操作员之间进行结果检查。表1显示了每个案例研究的可用图像的概况。该数据集涵盖约15,000个瓦片(256×256像素)和204平方公里。
表1用于案例研究的正常水和洪水图像概述,包括有关采集日期、平台、传感器、空间分辨率和可用光谱带的信息
3.研究方法
基线模型(BM):结合U-Net和深度可分离卷积架构,我们设计了高效分割模型,并和MobileNet-V3、ResNet-50和 EfficientNet-B4进行了比较
输入波段(IB):水在近红外波段显示出低反射率,而非水一般有更高的反射率。因此,与可见的R、G和B波段相比,水和非水土地覆盖类别之间反射值的高度对比在近红外光谱波段中尤为突出。我们测试了近红外光谱带对水体分割性能的影响。
数据增强(DA):数据增强提供了一种方法来学习对增强域中的变化的不变性。实验中训练数据集被随机增加了对比度、亮度、比例和旋转。所有的增强都是以相同的概率进行。
预训练(PT):从预先训练的权重开始可以提高性能。在实验中,我们比较了不同的预训练权重对分离性能的影响。
模型迁移-从卫星到航空(TM):我们还研究了在卫星图像上训练的模型是否可以迁移到辐射度降低和对比度增强的航空图像上。
其他设置:在所有的实验中,我们在考虑到不同的数据可用性的情况下,在三个测试场景中评估训练好的模型的性能。测试场景一:在相同传感器的图像中对正常水进行分割;测试场景二:在其他传感器的图像中对正常水进行分割;测试场景三:在其他传感器的图像中对洪水进行分割。在反向传播过程中,交叉熵(LCE )和洛瓦兹损失(LLova´sz )的加权组合被用于优化IoU(公式1)。
4. 结果
4.1. 基线模型(BM)
表2在IKONOS R-G-B卫星图像上训练的不同基线模型的结果。
表2显示了不同解码器-编码器组合在三个测试场景中的结果。模型是在IKONOS R-G-B卫星图像上训练的。测试场景I的结果与参考数据的测试分割(相同的传感器,相同的任务)相比较,显示基于U-Net解码器的模型比Deeplab-V3+模型表现更好。这说明了他们的准确性以及推断速度更快。同样,Mobilenet-V3 编码器模型提供了比 ResNet-50 和EfficientNet-B4更好的结果。
测试场景二将模型结果与训练期间未使用的卫星传感器的独立测试数据集进行比较(不同的传感器,相同的任务)。所有的模型在转移到其他传感器时都显示出明显的性能下降。在这种情况下,基于U-Net解码器的模型比Deeplab-V3+模型表现更好。Mobilenet-V3编码器模型提供了比ResNet-50和EfficientNet-B4模型更好的结果。
测试场景三将模型结果与独立的测试数据集进行比较,这些数据集来自训练期间没有使用过的传感器的洪水场景。与之前的测试类似,在这个场景中,基于U-Net的模型也比 Deeplab-V3+模型表现更好。Mobilenet-V3编码器模型优于ResNet-50和 EfficientNet-B4 编码器模型。
总之,与其他模型相比,U-Net Mobilenet-V3模型在所有测试场景中提供了最佳结果,同时在推理过程中体积小、速度快。
4.2. 输入波段 (IB)
基于最初的实验结果,我们使用带有Mobilenet-V3编码器的U-Net模型,并在具有不同输入波段的IKONOS卫星图像上对其进行训练。从表 3可以看出,与基线(IB-0)相比,增加近红外光谱波段(IB-1)明显提高了所有测试场景的分割结果。带有近红外和坡度模型的R-G-B组合(IB-3)显示出最好的性能。
表3在具有不同输入频带的IKONOS卫星图像上训练的具有Mobilenet-V3编码器的U-Net模型的结果。
4.3. 数据增强(DA)
表4在IKONOS R-G-B-NIR-斜坡卫星图像上训练的具有Mobilenet-V3编码器的U-Net模型的结果,用于不同的数据增强技术
表4描述了不同的数据增强技术对三个测试场景的分割结果的影响。基于根据以前的实验结果,我们使用一个带有Mobilenet-V3编码器的U-Ne 模型,该模型在IKONOS R-G-B-NIR-Slope卫星图像上进行训练。DA-0 使用的是没有增强的训练数据集。结果表明,当对训练数据集进行增强(DA-1)时,与使用未经修改的训练数据相比,在所有测试场景中都能取得更好的性能。。DA-2应用测试时间增强。对于测试场景I和III,其结果与DA-1相当。在测试场景II中,测试时间增强对准确性有负面影响。
4.4. 预训练(PT)
表5使用Mobilenet-V3编码器在IKONOS R-G-B-NIR-斜坡卫星图像上训练的U-Net模型的结果,考虑到不同的预训练重量。
表5显示了在IKONOS R-G-B-NIR-Slope卫星图像上使用MobilenetV3编码器训练的U-Net模型的结果。当对同一传感器和任务的数据进行训练和测试时(测试场景I),使用预先训练的权重无法观察到任何改进。然而,当 ImageNet权重被用于初始化R-G-B波段时,模型的泛化能力提高了,在测试场景II和III中测得的IoU更高。通过对Sentinel-2图像进行预训练来初始化所有波段(R-G-B-NIR-Slope)的权重似乎对模型在场景II和III中的可转移性产生了负面影响。
4.5. 模型迁移-卫星到航空(TM)。
表6具有Mobilenet-V3编码器的U-Net模型在不同训练设置的卫星和航空图像之间的可传输性。
表6测试了在不同的训练设置下,带有Mobilenet-V3编码器的U-Net 模型在卫星和航空图像之间的转移性。在所有三种情况下,在卫星图像上的训练和测试(TM-0)比在航空图像上测试同一模型的表现明显要好。在Mapbox图像上的训练(TM-1和 TM-2)在航空图像上的表现比在卫星图像上好。
4.6. 最佳表现模型的结果
图3.在对比度增强和增强的R-G-B斜坡IKONOS上训练了预训练ImageNet权重的最佳U-Net Mobilenet-V3模型的结果以及测试场景I(航空和卫星测试数据集的组合)上的Mapbox图像(TM-3),按主要陆地覆盖进行分组。
图3显示了表现最好的U-Net Mobilenet-V3模型的结果,该模型采用预先训练好的ImageNet权重,在测试场景I中按照测试样本的主要地表覆盖物(航空和卫星测试数据集相结合)进行训练,并对R-G-B-Slope IKONOS和Mapbox数据(TM-3)进行增强。所有土地覆盖类型的总体性能良好,所有指标的中位值都在0.75以上。
图4显示了对每个土地覆盖物选定的情景一测试图像中表现最好的整体模型(TM-3)的结果。所有水的预测都显示出良好的性能,并与参考掩模很好地匹配。可以观察到一些假阳性和假阴性的小问题,例如在类似水的区域(如阴影或潮湿的土壤),或者即使通过视觉图像解释也很难界定水和土地之间的明确边界。
图4.随机选择的场景I的最佳性能模型(TM-3)的结果——每个陆地覆盖物的测试图像。水的轮廓为蓝色,背景为灰色。每个样本面积约为1.3平方公里。
图5显示了U-Net Mobilenet-V3模型在对比度增强的IKONOS和 Mapbox数据(TM-3)上进行预训练的ImageNet权重对场景II和III卫星测试图像的结果。由GeoEye-1卫星获取的Landes的洪水图像凸显了该模型在具有异质性外观的水体中的整体良好表现。
图6显示了U-Net Mobilenet-V3模型的结果,该模型采用预先训练的 ImageNet权重,在对比度增强的IKONOS和Mapbox数据(TM-3)上训练,用于场景II和III的空中测试图像。Altenahr的无人机获取的正常水域 Zenmuse H20T图像显示了与浅层透明水有关的假阴性问题,这可能导致与沙质河底的混淆。这反映在这个场景的低Rec值上。
图5.场景二(左)和场景三(右)卫星测试图像的最佳性能模型(TM-3)的结果。水的轮廓为蓝色,背景为灰色,没有数据黑色区域。每个图像所覆盖的区域各不相同,如表1所示。
图6.场景II(左)和场景III(右)空中测试图像的最佳性能模型(TM-3)的结果。水的轮廓为蓝色,背景为灰色,没有数据区域黑色。每个图像所覆盖的区域各不相同,如表1所示。
5.结论
本研究中,我们将不同的神经网络架构(U-Net和DeepLab-V3+)与不同的编码器骨干(Mobilenet-V3、ResNet-50和EfficientNet-B4)相结合,用于判断水域是否为洪水。参考数据集由1120张全球取样图像组成,其中包含经过质量检查的二元水掩码,用于训练、验证和测试CNN模型。在几个实验中,我们确定了预训练于ImageNet上且采用U-Net Mobilenet-V3模型的优越性能。结果表明,在不同的传感器和不同的环境条件下,该模型具有良好的泛化能力。通过成功地将该模型应用于四个示范性的洪水事件,我们强调了其在支持应急反应中情景意识方面的有用性。未来,本研究提出的方法将支持现有系统水和洪水监测服务,并作为按需提供的极高分辨率的光学卫星和航空图像的临时组件的补充。
6. 文章引用格式
WIELAND M, MARTINIS S, KIEFL R, et al. Semantic segmentation of water bodies in very high-resolution satellite and aerial images [J]. Remote Sensing of Environment, 2023, 287: 113452.
转自:“科研圈内人”微信公众号
如有侵权,请联系本站删除!