原名:Sentinel2GlobalLULC: A Sentinel-2 RGB image tile dataset for global land use/cover mapping with deep learning
译名:Sentinel2GlobalLULC:用深度学习绘制全球土地利用/覆盖图的Sentinel-2 RGB图像瓦片数据集
期刊:Scientific Data (IF= 8.501)
发表时间:2022.11
DOI:10.1038/s41597-022-01775-8
一、研究背景
全球范围内的土地利用和土地覆盖(LULC)制图在地球系统气候建模、城市规划等领域有十分重要的作用。目前已经有很多种LULC产品,如表1所示。虽然每个产品的全球精度较高,但产品之间仍然存在相当大的不同,例如不同的分辨率,预处理技术,更新频率,分类体系与技术,参考数据等。
表1 LULC产品
深度学习在LULC制图中应用广泛,表现良好,但是训练数据的数量和质量制约了制图的精度。目前存在的一些卫星和航空图像的遥感数据集如表2所示。这些数据集存在一定的局限性。首先,特定地区的数据集不能代表全球特征,其次,数据集较小,代表性不足,最后,类间异质性小,类别区分困难。
因此,文章制作了Sentinel2GlobalLULC40数据集。这是一个由Sentinel-2 RGB图像建立的智能数据集,其中有29个全球范围内的LULC类别。每张图像的标签都是由GEE中提供的全球LULC产品获取的信息而建立的,可用于训练和/或评估基于DL的全球LULC制图模型。这个数据集能够改善我们对全世界自然和人类系统的理解和建模。
二、研究方法
制作Sentinel2GlobalLULC数据集包括两个步骤,寻找LULC产品的时空一致性和提取Sentinel-2的RGB影像。
1. 全球LULC产品中的时空一致性
(1)统一不同产品中的类别
如图1所示,文章建立了一个六级的层次结构来描述产品中的类别。数据集中的土地覆盖类型包含20个陆地生态系统和3个水生生态系统。陆地系统包括荒地、草地、开阔灌木丛等。此外还有12个森林类别,这些类别的树木覆盖率、物候和叶子类型各不相同。水生类是海洋水体、大陆水体和湿地。湿地被分为3类,分别是沼泽地、红树林和沼泽。陆地部分由城市地区和5个耕地类型组成。
(2)产品时空融合
对于构建的29个LULC类型,在空间和时间上融合15个GEE中产品的信息,只有所有的产品的类别达到一致,才可以标注为某个类别。信息融合的过程分为两个阶段,具体流程如图2所示。
第一阶段中,对每一个产品中的每个像元是都属于某个类型进行规则划分,对于那行已经准确包含某一类的像元,使用0和1代表属于和不属于。对于多年多时相的数据,使用“或”和“与”运算符计算每个像元属于某个类别的概率,范围是0-1。这样就获得每一个产品中每个像元属于哪一个类别的概率
第二阶段中,对个15产品中的概率图进行标准化,每个类别获得一张全局概率图,可以体现每个像素属于某个类别的概率。在最后,使用相乘的方式从非城市LULC类别中去除城市区域,或从非水LULC中去除水。最终生成的29个类别的30米分辨率的全球概率图。
(3)概率图重投影和类别阈值划分
使用GEE将30米/像素的概率图重新投影到2240米/像素。也就是说,在2240米分辨率下的每个像素值都是用其中包含的所有30米像素值的平均值来计算的。流程如图3所示。
对于每一张重新投影的地图,文章定义了一个像素阈值,以决定给定的2240×2240米瓦片分配给哪一个LULC类别。首先选择像素中为1的,即最纯净的像元作为图像标签。如果不足1000个,将降低一点像素纯度的阈值继续选择,直到能够选择出足够的样本。
为了控制所有样本的空间发分布均匀,将全球的划分1°×1°的网格,每个网格中均匀选择每个类别的样本。如果网格中样本的数量少于50个,那么全部选择上,否则按照地理距离最大的方法选出50个样本。最终选出的样本分布如图4所示。
2. 建立Sentinel2GlobalLULC数据集
Sentinel2GlobalLULC为用户提供了两种类型的数据。带有元数据的CSV文件和Sentinel-2 RGB图像。
(1)带有元数据的CSV文件
对于某个选定的样本,记录每个瓦片中心点的地理坐标、瓦片纯度值、LULC类别的名称和ID,以及该瓦片的平均GHM(Global human modifcation index)指数。
(2)Sentinel-2 RGB图像
使用每个样本的地理中心,提取224×224 Sentinel-2 RGB瓦片。为了最大限度地减少可能影响卫星RGB图像的大气条件,融合了2015年6月至2020年10月期间所有图像。首先去除了云层概率超过20%的所有图像,然后计算了所有剩余图像中每个反射波段(R、G和B)的第25个百分位值建立最终图像,如图5所示。
三、精度验证
为了对自动标注的样本的质量进行评估,文中目视解译了具有地理代表性的2900张图像样本(每类100张)。目视解译的参考数据来自谷歌地球和Bing地图的高分辨率的图像。每张图像样本的某一个LULC类占据70%以上的面积时将其归入该类。最后计算出混淆矩阵,如表8所示,计算了在每个层次上获得的F1分数。
平均F1分数从L0级的0.99到L5级的0.91不等。从L0级到L5级,随着类别数量的增加,准确性有所下降,这主要是由于目视在L5级很难区分森林类型,而且从L2级开始,草地和灌木丛类别的视觉特征容易混淆。
四、数据下载和使用
为了使Sentinel2GlobalLULC40数据集更容易使用、复制和利用,并促进其用于深度学习模型的训练,作者为用户提供了一个python代码,可以加载所有的RGB图像。同时还公开分享了全球类别概率图在GEE中。为了帮助用户可视化每个LULC类别的全球分布,作者提供了一个GEE脚本,可以实现导入、操作和可视化的操作。代码和数据集可以在https://doi.org/10.5281/zenodo.5638409获得。
五、引用格式
BENHAMMOU Y, ALCARAZ-SEGURA D, GUIRADO E, et al. Sentinel2GlobalLULC: A Sentinel-2 RGB image tile dataset for global land use/cover mapping with deep learning [J]. Scientific Data, 2022, 9(1): 681.
转自:“科研圈内人”微信公众号
如有侵权,请联系本站删除!