以下文章来源于武汉大学学报信息科学版 ,作者乐鹏等
本文改编自学术论文
《地理人工智能样本:模型、质量与服务》
即将刊载于《武汉大学学报(信息科学版)》2023年第10期
乐鹏1 刘瑞祥1 上官博屹1 曹志鹏1
刘帅旗1 徐翰文1
1.武汉大学遥感信息工程学院,湖北 武汉,430079
乐鹏
博士,教授,主要研究方向为地理信息系统。pyue@whu.edu.cn
摘 要
数据驱动的研究范式对地理人工智能(GeoAI)样本数据共享提出了强烈需求。不同的GeoAI应用样本数据内容和组织形式多样,如何构建统一的信息模型,是GeoAI样本数据共享与互操作的前提。通过分析不同GeoAI样本数据的公共特征与核心属性,提出了样本数据的共享信息模型,探讨了样本数据质量指标体系和评估方法,为GeoAI样本数据建库与共享服务提供了参考。
引 用
乐鹏,刘瑞祥,上官博屹,等. 地理人工智能样本:模型、质量与服务[J]. 武汉大学学报(信息科学版),2023,DOI:10.13203/j.whugis20230125
自1956 年被正式提出以来,人工智能(Artificial Intelligence, AI)已经取得了长足的发展,成为一门前沿交叉学科。从自动驾驶汽车、谷歌阿尔法围棋(AlphaGo)、到最近的ChatGPT/GPT-4 等,人工智能获得了前所未有的关注度。其中,机器学习(Machine Learning, ML)作为人工智能的重要内容发展迅速,而数据量的快速增长和计算基础设施的进步又支撑机器学习的分支深度学习成为近几年的研究热点。
我国遥感对地观测(Earth Observation,EO)与自然资源监测等项目的实施,已经产生了时效性强、覆盖范围广、信息量丰富的海量对地观测数据。地理人工智能技术的发展为这些对地观测数据的应用注入了新的活力。基于深度学习的遥感影像解译与监测技术相对传统方法已经表现出了一定的优势,开始被相关部门普及应用。学术界也体现科学研究范式的改变,站在数据科学的角度研究基于AI/ML算法的地理人工智能分析模型,以更好地利用不断增长的对地观测数据。
目前,主流的地理人工智能算法大部分是数据驱动型算法,其关键部分是训练数据,或被称为样本数据。样本数据直接影响到训练出的AI/ML模型的准确度和可用性。高质量的样本数据需要具有完整的溯源信息、元数据信息和质量评估信息,以更好地服务于AI/ML模型的训练、验证和测试。虽然目前地理空间领域已经积累了海量的对地观测数据,但是缺乏大量开源、可用且组织规范的样本数据,这已经成为了制约对地观测AI/ML模型与应用进一步发展的主要瓶颈。同时,样本数据获取难度大的现状也使得AI/ML算法对比实验的难以重复,影响了算法的评估。
本文针对地理人工智能(GeoAI)样本数据的信息模型与共享服务,旨在从以下几个方面进行探讨:1)样本模型层面,厘清样本与现有数据模型之间的关系,阐明与AI已有样本标注格式的不同,提出考虑标注语义、溯源、质量、更新、一致性的统一样本信息模型,兼容已有的地理信息标准,为多源异构的地理人工智能样本数据的标准化表达提供依据。2)样本质量层面,在兼顾已有空间数据质量标准体系的同时,拓展样本质量指标体系,探讨低质量样本的解决方案。3)样本服务层面,提出面向多源地理人工智能样本数据的共享服务模式,并设计基于数据管道的样本集成服务方法,为样本数据与深度学习模型的耦合提供了基础。
1 相关工作
1.1
样本定义
“样本”术语在地学或生物学等不同领域已有特定的含义,通常指由某采样器通过特定的采样程序获取的对象或现象的代表,英文称为Sample,可以是材料样本(如地矿样本)、生物样本(也称标本)、统计样本(基于概率抽样),也可以是空间样本,即基于代表性位置获取的采样要素,例如国际上收集发布地矿样本的平台(geosamples.org)。
AI/ML训练样本与统计样本不同。它通常以特定目的的方式收集,偏离纯粹的概率采样,其中已知的或期望的结果标记为因变量的值,用于生成经过训练的预测模型,满足与类别平衡和代表性等相关的算法特定要求。统计学从样本中得出总体推断,而AI/ML旨在寻找可推广的预测模式。AI/ML样本在国际上也通常命名为Training Data或Training Sample,既区别于传统地学野外采集的物理样本,也不等同于纯粹的统计抽样。因此,GeoAI样本可以理解为服务于地理人工智能机器学习/深度学习模型训练、验证、测试的数据统称,一般由地理数据和标签数据组成。
1.2
样本服务
为了有效利用不断增长的地理人工智能样本数据,提高其可复用性,许多国内外组织或机构在近年来针对样本数据的共享进行了实践,包括Kaggle、国际开放地理信息协会(Open Geospatial Consortium,OGC)研发计划系列(Testbeds)、时空资产目录(SpatioTemporal Asset Catalogs,STAC)、人工智能就绪对地观测训练数据集(AIReady EO Training Datasets,AIREO)、通用物体和场景识别挑战赛数据集(Common Objects in Context,COCO)等。
其中Kaggle是目前全球大规模的在线AI数据分析平台,允许用户将整个样本数据作为一个文件进行共享,无需遵循任何元数据和编码规范。然而,Kaggle平台中共享的样本数据没有以标准化的形式组织。COCO作为一类代表性的标注格式,尚未考虑时空信息,也没有为地理人工智能样本数据进行统一的组织和建模。
针对时空信息领域的样本,STAC规范设计了一个数据目录模型,对数据项进行拓展,增加了针对机器学习的标签字段,以支持样本数据的发现和检索,然而标签字段的设计尚未全面考虑元数据、溯源、质量、更新等。AIREO对地理人工智能样本数据集的元数据进行了详细的设计,但对样本数据本身的组织建模尚未有明确的规范。OGC在创新研发计划Testbed-18中,对样本数据的标准需求和已有的TrainingDML-AI工作进行了分析,为样本共享信息模型的FAIR原则(可发现、可访问、可互操作、可重用的原则)提出了建议。
目前,开源样本数据集并没有按照统一的信息模型和服务接口进行表达和共享,通常以数据文件的方式组织,存储在个人服务器、开源资源托管平台和云存储平台中,仅仅提供超链接供用户下载使用,缺乏互操作能力。Kaggle等平台虽然建立起了样本数据的共享生态圈,但并没有提供标准化的服务接口帮助用户获取和使用样本数据,样本数据的共享服务层次不高。因此,现有的样本数据共享服务方法在信息模型、共享范围和服务能力等方面具有较大的局限性,制约了地理人工智能应用的发展。
2 样本信息模型
2.1
样本数据类型
目前,EO遥感样本是地理人工智能样本中最为突出的样本数据类型,大部分开源的遥感样本数据是为场景分类、目标检测、语义分割和变化检测等对地观测AI/ML任务准备的。这些样本数据集除传统的光学遥感数据以外,还包括SAR、点云等数据。此外,基于多视影像的三维场景重建任务也在近年来成为了EO AI/ML研究的热点。下文将逐一介绍并分析这些典型的EO AI/ML任务与它们所对应的样本数据集的特征。
(1)场景分类:EO AI/ML场景分类通过分析对地观测影像中的多光谱/高光谱特征和结构特征,理解影像包含的“场景”的类别从而对影像进行自动/半自动分类。语义类别是对“场景”内容高层次的知识抽象和概括。EO AI/ML场景分类所需的样本数据一般由每张对地观测影像与其对应的类别文本标注组成。目前,用于场景分类的公开EO AI/ML 样本数据集示例如表1所示。其中有的使用文件夹名称表示场景类别标签,并将属于相同场景类别的影像数据放入到同一文件夹进行归类(如WHU-RS19),有的则直接在影像数据的文件名中注明场景类别标签( 如SenseEarth classify),还有的生成单独的映射文件来表示影像数据和场景类别之间的关系(如SAT-4)。
表 1 现有的公开对地观测AI/ML场景分类数据集示例
(2)目标检测:EO AI/ML目标检测则根据地物目标对象的特征,定位不同目标对象的位置,并确定所属的地物语义类别。目标检测所需的样本数据由每张影像与对应的若干个目标对象标注组成,每个目标对象标注包括目标对象在影像中的相对位置及其所属类别。一般使用两种类型的边界框来标注目标对象的位置,包括水平边界框和旋转边界框。目前,用于目标检测的典型EO AI/ML样本数据集示例如表2所示。其中不仅标注使用的标注框类型不同,对标注框采用的信息编码方式也不同,例如DOTA数据集使用文本文件来编码标注框,RSOD数据集使用XML文件来编码标注框。
表 2 现有的公开对地观测AI/ML目标检测数据集示例
(3)语义分割:EO AI/ML语义分割根据地物类别的特征,将每个像素归类到不同地物类别中。常见的EO AI/ML语义分割任务包括土地覆盖分类和土地利用分类两种。语义分割所需的样本数据由影像与其中每个像素的类别标注组成。目前,用于语义分割的典型对地观测AI/ML样本数据集示例如表3所示。其存在标注使用的图像格式、通道数不一致的情况,例如INRIA数据集使用单波段TIFF
进行标注,而AISD数据集使用红绿蓝三波段PNG
进行标注;还存在相同类别地物在不同数据集中标注使用的像素值不一致的情况,如建筑物在AISD数据集中使用[255,0,0]表示,而在Zurich Summer数据集中则使用[100,100,100]表示。此外,针对三维点云数据的语义分割也逐渐成为了对地观测语义分割的重要任务。与将影像中的像素进行分类不同,三维点云数据的语义分割需要对每个三维点的特征进行分析和归类。
表 3 现有的公开对地观测AI/ML语义分割数据集示例
(4)变化检测:EO AI/ML变化检测样本数据通常包括一组相同地区不同时相的对地观测影像数据,以及它们对应的变化和未变化区域的像素标注。传统的变化检测任务一般要求使用的多时相影像数据类型一致,但随着AI/ML技术的发展,基于异构影像数据的变化检测任务也成为了研究热点,如基于光学影像和SAR影像的变化检测。目前,用于变化检测的典型的EO AI/ML样本数据集示例如表4所示。其一般使用文件名称来区分不同时相的影像数据和变化标注图像,用户使用时需要阅读其提供的自述文件进行理解,使用成本较高。同时,不同变化检测样本数据集的标注方式也存在差异,如HRSCD数据集标注了全要素地物的变化区域,而WHU-Building数据集只标注了单要素建筑的变化区域。
表 4 现有的公开对地观测AI/ML变化检测数据集示例
(5)三维重建:EO AI/ML三维重建任务使用的样本数据通常由两视图或多视图的影像以及它们对应的基于像素级粒度标注的视差图(Disparity Map)、深度图(Depth Map)或对应区域的数字地表模型(Digital Surface Model,DSM)组成。目前,用于三维重建的典型EO AI/ML样本数据集示例如表5所示。其在使用的数据类型、标注方式等方面都存着差异。
表 5 现有的公开对地观测AI/ML三维重建数据集示例
从上文可以发现,地理人工智能样本数据集不仅在数据组成和特征等方面与通用AI领域的样本数据有明显的区别,同时针对不同EO AI/ML应用场景和任务的样本数据集在数据来源、数据类型、以及标注方式等不同方面都存在着差异,难以进行统一表达。因此,建立完善的地理人工智能样本信息模型需要针对这些差异进行逐一的分析与考虑。
2.2
样本信息建模
2.2.1 样本建模考虑
与一般的数据建模不同,样本建模关注标注的组织与语义。同时,也需要考虑通常数据建模涉及的数据粒度、元数据、溯源、质量与更新等,并顾及与已有标准的兼容和使用的轻便性等。本文涉及的样本,在数据粒度上可以分为数据集层面和样本实例层面,在此基础上,重点考虑以下5个核心因素:标注、溯源、质量、更新、一致性。
(1)C1:标注:样本数据的一个显著特征是数据通常使用已知值或期望值进行标注,如语义类别、对象位置范围框、遥感影像地面真实值等。其中,针对语义类别的样本标注值通常根据现有分类方案中的相应值进行分配,而不同的AI/ML应用可能使用不同的分类方案来表达样本标注的语义信息。以土地覆盖分类任务为例,在进行土地覆盖分类时,可以使用现有的许多不同分类方案对影像进行解译和标注,从而生成具有不同标注语义的分类结果。由于不同分类方案中类别的名称、层次结构和语义信息通常都存在差异,往往很难统一协调这些不同的分类方案。因此,在对样本数据进行信息建模过程中,需要考虑不局限于一种语义分类方案。同时,也考虑能够兼容外部已有的语义分类方案,支持将其关联到样本信息模型中进行应用。
此外,不同的应用场景涉及不同的样本标注组织,需要从顶层设计可以扩展容纳不同EO AI/ML任务的样本标注模型。例如场景分类样本数据由每张对地观测影像与其对应的类别文本标注组成。目标检测样本数据由每张影像与对应的若干个目标对象标注组成,每个目标对象标注包括目标对象在影像中的相对位置及其所属类别。语义分割所需的样本数据由影像与其中每个像素的类别标注组成。变化检测样本数据包括一组相同地区不同时相的对地观测影像数据,以及它们对应的变化和未变化区域的像素标注。三维重建任务使用的样本数据通常由两视图或多视图的影像以及它们对应的基于像素级粒度标注的视差图、深度图或对应区域的数字地表模型组成。
(2)C2:溯源:在地理空间信息领域,关于溯源的研究可以追溯到上世纪90年代早期的地理空间数据谱系的研究。目前,溯源已经被确认为是在互联网上进行信息共享的一个基本问题。地理空间领域目前已经提出了两个广泛应用的溯源模型:W3C PROV模型和ISO 19115-1 Lineage模型。W3C PROV 模型定义了与生成Web 资源有关的实体(Entity)、活动(Activity)和代理(Agent)的信息。而ISO 19115-1 Lineage模型则指定了用于生成地理空间数据集的数据源和处理步骤信息。目前已经有一些工作可以耦合这两种模型,其基本思想是在ISO 19115-1 Lineage模型中找到可以映射到W3C PROV模型中对应类别的实体。通过这种方式,地理空间数据谱系可以被链接到更广泛的Web空间中并在其中实现互操作。样本数据的溯源信息通常包括标注过程、标注者等,但是现有的溯源模型中并没有提供相应的实体来表达这些信息。因此,可以参考上述方法,通过在W3C PROV模型查找实体(样本数据集)、活动(标注过程)和代理(标注者)的对应关系,在样本信息模型中对这些溯源信息进行指定,从而扩展现有的溯源模型来携带特定的溯源信息。
此外,溯源模型的作用范围可以从数据集层面拓展到样本实例层面,例如某样本实例的输入地理影像可能来自不同分辨率数据源,在标注之前重采样为统一分辨率影像,输入影像实例和处理过程可以通过溯源模型记录下来。
(3)C3:质量:目前,大部分AI/ML应用都会使用大型样本数据集进行训练来提高模型的预测性能。在使用这些样本数据集的过程中,应用通常假设样本数据集能够准确地表示基本事实,或者模型本身具有一定的鲁棒性,可以容忍样本数据集存在小部分错误。但是,样本数据集的质量在一定程度上仍然会影响AI/ML模型的性能。地理人工智能样本数据产生误差或不确定性的主要原因一般是数据不具代表性和存在标注误差。前者可能是数据抽样策略、空间分布不均匀、数据类别不平衡等造成的。而后者一般是由于人工标注出错、标注语义模糊性、以及数据收集过程中的测量误差引起的。当涉及单个样本的地面测量采样例如GPS测量时,也需要在样本实例层面评估位置不确定性,而不仅仅是在数据集层面提供质量模型。
尽管样本数据生产存在误差或不确定性,但空间数据质量评估是一个复杂的过程,涉及以生产者为中心和以用户为中心的两种评估视角,以及空间数据处理过程中存在的不确定性传播。同时,很多数据质量信息难以量化,有时需要结合样本数据的溯源信息或其他属性信息(如图像尺寸、样本数量等)来进行间接评估。因此,目前现有的许多关于样本数据质量评估的工作都集中在特定的任务上,尚不存在被所有AI/ML 任务广泛接受的通用质量评估方法。基于上述考虑,本文在构建样本信息模型时,将针对不同的AI/ML 任务类型,在现有的通用空间数据质量模型,如ISO 19157:2022空间数据质量模型的基础上提供扩展机制,服务于特定的地理人工智能样本数据质量评估。
(4)C4:更新:样本数据的更新是完善样本数据描述、补充样本数据内容、改善样本数据误差、以及提高样本数据质量的必要过程。例如,目前在对地观测AI/ML应用中被广泛使用的航空影像目标检测数据集DOTA从2018年发布以来已经进行了3个版本的更新,在这过程中补充了大量的样本数据。此外,近年来,样本数据的生产也有着从个人组织向众包平台转化的趋势,通过以众包的力量快速获取海量的样本数据来满足高精度AI/ML模型的训练需求。在样本数据的快速迭代更新的过程中,需要及时捕获样本数据贡献者对样本数据集的更改,以提高样本数据集的透明性,并减少样本数据用户的更新代价。
(5)C5:一致性:在通用信息领域和地理空间领域,数据和元数据建模都已经得到了广泛的研究。样本数据建模可以利用已有的工作基础,与现有的标准保持一致性,以便更好地被广泛采用。例如,地理人工智能样本数据的元数据模型与质量模型可以分别与 ISO 19115-1空间数据元数据模型和ISO 19157-1空间数据质量模型进行对齐。此外,样本数据的几何标注形式可以遵循现有的在地理空间领域已经得到了良好的发展和应用的矢量数据模型,包括ISO 19107:2019标准中定义的通用矢量要素模型、OGC提出的地理标记语言(Geographic Markup Language,GML)模型、以及基于JSON的地理空间数据交换模型GeoJSON等。地理人工智能样本信息模型与这些现有标准保持一致的同时还能有效地利用这些标准来实现自身的部分功能。与FAIR原则的兼容也是样本信息模型具象化过程中需要遵循的原则,包括持久标识符(例如DOI)的引入、数据与数据及元数据的互引、可解析的公共词汇、跟数据隐私或伦理相关的使用许可与范围限制等。
2.2.2 样本信息模型
通过分析地理人工智能样本数据的特点与需求,基于以上核心考虑,本小节总结了描述样本数据所必要的基本概念实体,如图1所示。
图 1 地理人工智能样本概念模型
(1)样本数据集Training Dataset:是多个样本数据单元Training Data的总体集合,以作为AI/ML模型的统一输入。同时,样本数据集对象也是溯源信息的载体和数据质量评估的目标,携带描述整个数据集的基本元数据信息,包括任务描述信息等。
(2)样本数据实例Training Data:样本信息模型的核心元素之一,是包含在样本数据集中的单个样本个体,代表了AI/ML模型输入的最小数据单元,用于描述单个训练/验证/测试样本的基本属性和数据内容,包括原始数据信息和对应的若干样本标注信息。
(3)样本标签Label:样本信息模型的核心元素之一,代表属于某一个样本数据单元的一个标注结果,用于描述面向AI/ML任务目的通过人工解译等标注活动生成的包含样本原始数据的某种特征的语义信息,用于矫正或评估AI/ML模型的输出,其携带的信息通常需要保证准确性以提高训练出的模型的精度。
(4)样本任务Task:样本信息模型的核心元素之一,是针对整个样本数据集的任务描述,用于帮助数据用户识别该样本数据集可用于的AI/ML任务类型或模型,例如,描述EO样本数据集是用于场景分类、目标检测、语义分割、变化检测、还是三维重建任务。
(5)样本质量Quality:是针对整个样本数据集以及样本数据单元的质量信息描述,包含若干个质量评估指标及其定性或定量的分析结果(考虑C3),用于帮助数据用户挑选样本数据集时识别不同样本数据集的可用性,以及在AI/ML模型训练过程中辅助数据用户对训练结果进行误差分析,从而构建具有更高精度的AI/ML模型。
(6)样本标注活动Labeling:是对生产样本数据集中样本数据的一次人工标注活动的信息描述,记录了哪几位标注者参与并使用了哪种程序或方法来标注样本数据,即样本数据集和样本数据单元的溯源信息(考虑C2),用于帮助用户数据了解样本数据集和样本数据单元的来源,支持对样本数据集和样本数据单元进行溯源分析,提高样本数据集和样本数据单元的可信度。
(7)样本标注者Labeler:是对生产样本数据集的人工标注活动中某一参与标注人员的信息描述,用于对数据标注人员进行信息追踪和质量把控,从而进一步支持对每位标注人员进行信誉度分析以建立信任机制。
(8)样本标注程序Labeling Procedure:是对生产样本数据集的标注活动中参与标注者使用的某一标注程序或方法的信息描述,用于对样本数据标注程序或方法进行透明化管理,支持针对样本数据集标注过程中产生的误差进行分析。
(9)样本变更集Changeset:是对样本数据集两个版本之间所有样本数据更新信息的描述(考虑C4),在数据集合层面对样本更新进行记录,包括样本数据单元的新增、修改和删除,有助于数据用户了解样本数据集的变化,提高样本数据集更新过程的透明性,也支持通过样本变更集来对样本数据集进行增量更新,减少数据用户的更新代价。
在概念模型的基础上,为每个基本概念类定义了基本属性元素,构建了地理人工智能样本逻辑模型,如图2 所示。基本属性元素是描述样本数据集特征的元数据集合,包括必选和可选属性,从而支持样本数据集的轻量化表达。同时,这些基本属性元素可以与ISO 19115-1空间数据元数据模型中定义的元素进行映射和关联,从而支持与现有的元数据模型进行对齐以保持一致性(考虑C5)。同理,样本数据质量与ISO 19157-1空间数据质量模型进行对齐。
标注信息是样本数据集区别于其他数据集的重要特征,是样本数据概念模型定义的核心元素之一(考虑C1)。由于样本数据的标注有正负标注之分,需要在模型训练时进行区分,因此逻辑模型为AI_Label类添加了布尔型的isNegative(是否为负样本)的可选属性来进行标识。同时,针对不同的AI/ML任务类型,它们使用的样本数据集的标注方式通常都是不一样的。如EO AI/ML任务中,场景分类任务的标注是影像所属的一个场景类别、目标检测任务的标注是影像中目标范围和目标类别、以及语义分割任务的标注是影像对应的像素分类图。这些对地观测AI/ML任务和对应的标注方法可以归纳为场景级、对象级、像素级三个层级。
图 2 地理人工智能样本逻辑模型
样本数据集的更新不仅包括数据集元数据的更新,还包括样本数据单元的更新,如增加样本标注类别、增加样本数据量、修正样本标注错误、以及删除低质量样本数据单元等。通过样本数据集标识datasetId属性和样本数据集版本version属性来定位到指定样本数据集的某一个版本的更新变化。针对样本数据单元的更新,将其分为3个类型:新增样本数据单元add、修改样本数据单元modify、以及删除样本数据单元delete。
3 样本数据质量
3.1
样本质量指标
在基于样本信息模型的标准化表达的基础上,需要进一步研究样本数据质量的标准化评估与描述方法,以提高样本数据共享与服务的可靠性。在地理信息领域,空间数据质量一直被认为是空间数据元数据的重要组成部分。最新ISO 19157-1空间数据质量模型将空间数据的质量指标分为了六个质量维度,包括完整性、逻辑一致性、主题质量、位置精度、时间质量、以及元质量,并提供了数据质量信息模型的扩展机制。
本文遵循ISO 19157:2022空间数据质量模型提出的质量维度划分方法,基于不同类型样本数据的质量特征,从定量分析的角度分别面向场景级、对象级和像素级的地理人工智能样本数据设计了相应的质量指标体系,以支持不同应用任务的样本数据集的质量评估。
场景级地理人工智能样本数据的质量指标体系如表6 所示。在完整性质量维度,评估场景类别标注的缺失和冗余;在逻辑一致性质量维度,评估样本数据集中记录的元数据信息与原始数据不一致的样本数据单元的数量和其所占的百分比;在主题精度质量维度,评估场景标注类别的精度和样本属性的精度;在位置精度质量维度,评估样本的空间位置精度;在时间质量维度,评估样本时间精度和时间有效性;在元质量维度,评估样本质量评估结果的可信度;在质量元素拓展方面,针对AI机器学习可能存在的数据偏见问题,添加样本数据集的总体场景类别的分布平衡度。
表 6 场景级样本数据质量指标体系
对象级地理人工智能样本数据的质量指标体系如表7 所示。在完整性质量维度,不仅评估对象类别标注的完整性,还可以评估对象位置标注的完整性;在逻辑一致性质量维度,除了评估被标注影像数据的尺寸大小、影像格式、影像波段信息与元数据描述的一致性外,还可以关注对象位置标注格式的一致性,以及对象位置标注空间表达的拓扑一致性;在主题精度质量维度,评估对象标注类别精度和样本属性精度;在位置精度质量维度,评估样本的空间位置精度、对象标注位置偏移度和对象标注位置重叠度;在时间质量维度,评估样本的时间精度和时间有效性;在质量元素拓展方面,添加样本数据集的总体对象类别平衡度。
表 7 对象级样本数据质量指标体系
像素级地理人工智能样本数据的质量指标体系如表8所示。在完整性质量维度,评估影像的像素标注或三维点云的点标注的缺失和冗余;在逻辑一致性质量维度,除了评估影像尺寸、格式、波段信息不一致的样本数据单元的数量和其所占的百分比之外,还可以针对变化检测、三维重建等任务的样本数据集评估影像对的尺寸、格式、空间信息一致性,以及评估标注图像尺寸、格式信息的一致性;在主题精度质量维度,评估像素标注类别精度和样本属性精度;在位置精度质量维度,评估样本空间位置精度;在时间质量维度,评估样本时间精度和时间有效性,还可以面向变化检测任务的多时相影像对评估影像对时间信息的一致性;在可用性质量维度,评估样本数据集的总体像素类别平衡度。
表 8 像素级样本数据质量指标体系
3.2
样本质量评估
一个样本数据集通常包含大量的样本数据单元,对样本数据集中的每一个样本数据和标注信息进行逐一检查和评估十分耗时耗力。合理的考虑是提供完整的样本数据收集过程描述、适当的质量评估信息、以及原始数据。其中针对质量指标的定量评估,一般遵循“抽样设计-响应设计-分析和估计”的评估方法。
(1)抽样设计方法
抽样设计是从待进行质量评估的样本数据集中获取抽样样本数据单元,以评估其数据质量来代表整体样本数据集的数据质量,从而降低质量评估的工作量。获取抽样样本数据单元的方法包括概率抽样方法和非概率抽样方法。简单随机、分层随机、聚类和系统抽样都属于概率抽样方法,而非概率抽样方法则包括方便抽样、定额抽样、立意抽样、滚雪球抽样和空间抽样等。
此外,在抽样的过程中还涉及到抽样单元的选择与设计。抽样单元可分为点抽样单元,如以场景、对象、像素为单元进行抽样,和区域抽样单元,如按一定大小的空间区域为单元进行抽样。对抽样单元为何被进行选择需要进行相应的记录,即记录抽样特征以实现可重现性,包括:1)描述在抽样单元选择中实现的随机化;2)若实施分层抽样,应描述如何构建层,记录每层抽样比例,指定每层实施的抽样设计,并说明分配给每层的抽样单元的数量和分配的理由;3) 抽样单元的变化需要进行严谨的记录等。
此外,抽样设计还需要考虑的其他因素,包括样本数据集中各个样本数据单元之间的空间相关性、抽样的规模(抽样样本数据单元容量)、抽样样本数据单元的特征分布,以及抽样样本数据单元和真实参考数据之间的独立性等。
(2)响应设计方法
响应设计是确定一个抽样样本数据单元对应的真实值或参考数据的方法。准确性较高的参考数据才能得到有意义的质量评估结果。参考数据的来源一般包括以下几种途径:室内人工解译、现有的空间数据产品、以及现场收集的数据。由于样本数据集的生产过程一般也是在原始数据集上进行标注,因此获取其参考数据可以有以下几种方法:1)在原始数据上进行更有权威的人工解译获取参考数据;2)选择空间范围一致的更高分辨率的空间数据进行人工解译获取参考数据;3)获取空间范围一致的高精度空间数据产品;4)前往对应的实地区域进行现场勘测获取参考数据。
为保证质量评估流程的可重用性、公开性和透明性,响应设计方法需要遵循两个原则:1)能够记录响应设计流程;2)能够记录参考数据的相关特征。
(3)分析和估计方法
分析和估计方法的重点在于如何组织和总结质量评估信息以量化质量评估结果。基于地理人工智能样本数据质量指标体系,在针对样本数据集的质量进行分析和估计时,可以按照不同质量维度对各个质量指标进行有选择的评估。
3.3
低质量样本学习
根据质量评估方法可产生相应的评估报告,若经过质量评估后发现该样本确实在完整性、逻辑一致性、主题质量、位置精度、时间质量等方面存在质量问题,由于提升样本质量往往需要耗费大量额外的人力资源,因此,研究如何基于低质量的样本去训练机器学习/深度学习模型是一个亟待解决的问题。本节从漏标、错标、位置偏移与类别平衡度四个代表性方面探讨低质量样本学习问题。
(1)漏标
标注缺失是影响样本完整性的重要因素。对于场景级样本,标注缺失主要体现在部分影像没有得到类别标注上,但对其他影像的标注情况不存在影响。因此,可以看作如何在少量样本的情况下实现模型训练,属于小样本场景分类任务。对于小样本分类,常用的方法包含度量学习、元学习与半监督学习等方法。此外,在目前预训练大模型流行的背景下,自监督学习方法也展现出了优秀的小样本分类能力。
对于对象级与像素级样本,标注缺失主要体现在同一幅影像中只有部分地物得到了标注,而剩余的地物所在对象区域或像素没有得到标注。其与场景级的不同之处在于,场景级标注存在缺失的话则整个影像均无法提供类别信息,而对象级与像素级标注缺失并不会造成整幅影像无法提供类别信息的状况,即无法做到训练过程中简单的将无用数据排除掉。若直接将带有漏标问题的对象级与像素级样本进行目标检测与语义分割模型的监督学习训练,其漏标现象将会产生错误的监督信号,从而使模型无法进行正确的地物识别。解决此问题的关键在于如何使模型在训练过程中忽略掉漏标的样本。对于对象级的标注缺失,常用解决思路为选择合理的正负样本选择方法,例如YOLOV3将存在标注的区域作为正样本,将置信度分数最低的少部分区域作为负样本,其他区域作为无效样本,从而忽略漏标的样本。对于像素级样本的标注缺失,常用解决思路为半监督学习中基于伪标签的方法。
(2)错标
类别的错误标注可以理解为主题质量的重要元素。相较于完整性、位置精度与类别不平衡上的低质量问题,样本的错误标注对模型的精度会产生更大的影响,且难以进行处理。近年来,置信学习[50]被提出来缓解错误标注问题,其基本思想在于估计噪声标签和真实标签的联合分布并根据联合分布找出噪声样本,然后过滤掉噪声样本后进行重新训练。目前,置信学习大多用于场景分类任务,对于对象级与像素级的任务并未得到充分的探索,尚处于起步阶段。此外,对于对象级与像素级的错标问题,可同样基于伪标签思想,将错标的样本看作带有噪声的伪标签,从而使用半监督学习方法缓解错标问题。
(3)位置偏移
位置精度的低质量主要在于样本或标注的空间位置偏移上。对于场景级样本,空间位置偏移问题将导致某些影像未能完全覆盖相关的地物。若空间位置偏移较小,由于场景分类模型具备一定的鲁棒性,可将其作为正确样本对待,或在训练过程中降低其在损失函数计算中的权重从而减轻其对模型训练的影响。若某些样本存在较大的空间位置偏移现象,即该影像已经无法包含相应的地物,则可其作为漏标样本,从而转化为小样本分类问题。
对于对象级与像素级样本,位置精度的低质量主要体现在检测框或像素标注无法良好的贴合相应的地物上。若空间位置偏移较小,可在模型训练过程中将其作为正常样本参与训练,受样本的偏移的影响,可能会导致模型的推理结果无法在边缘部分良好的贴合到地物,此时可添加相应的后处理方法纠正推理结果的偏移问题,例如条件随机场等方法。若空间位置偏移较大,且模型的鲁棒性无法自动忽略这种错误,可同样基于伪标签思想,将标注错误的样本看作带有噪声的伪标签,从而使用半监督学习方法缓解标注错误问题。此外,对于像素级样本,也可以考虑从样本角度出发,结合弱监督学习的思想,在训练过程中对样本进行迭代更新,提升模型的学习性能。
(4)类别平衡度
样本的类别不平衡现象是影响模型能力的重要因素,这会使模型容易偏向于预测数量较多的类别,而对数量较少的类别产生错误分类的情况,即所谓的数据偏见问题。此问题在场景级、对象级与像素级的样本上都较为常见,其解决方案可从样本、损失函数与学习方法三个方面进行讨论。在样本层面,可利用数据增强、重采样法与图像生成法缓解类别不平衡问题,数据增强法旨在对数量较少的类别进行数据增强,例如旋转、翻转、缩放等方式增加训练样本数量;重采样旨在对数量较少的类别进行过采样,使得训练集中各个类别的样本数量相近;图像生成法旨在利用生成对抗网络等模型生成少数量类别的样本。在损失函数层面,可基于类别权重调整的思想,给数量较少的类别赋予更高的权重,例如Focal loss。此外,也可利用自监督学习方法,在大量无标注影像上的进行模型预训练,再将其迁移到少数类别上,以增强对于少数类别的识别能力。
4 样本服务模式
4.1
AI就绪SDI
样本及AI/ML模型为空间数据基础设施(SDI)提供了AI赋能。AI赋能的SDI可以被视为一个具有AI/ML相关政策、技术、数据、模型和人员的架构,包含丰富的AI/ML功能。AI/ML样本数据及其编码需要实现可发现、可访问、可互操作和可重用,AI/ML模型也可以作为服务进行发布和调用。
从AI就绪的角度来看,地理人工智能样本数据可以根据AI/ML任务预测目的进行准备,并遵循标准的样本信息模型进行组织,使其能够直接满足AI/ML模型的输入要求。AI就绪的SDI可以工作流的形式实现地理人工智能样本数据和AI/ML模型耦合的服务模式。图3展示了AI就绪工作流的完整流程,它可以分为六个步骤,包括生产、映射、组织、共享、集成、训练。
生产环节SDI中不同的组织机构通过不同的方式生成样本集,包括来自已有数据库、已有样本数据文件、以及在线样本标注平台。这些多源样本数据可能组织形式各异,难以互操作。映射环节需要面向SDI互操作要求,对这些不同来源的样本数据集进行标准化,映射到标准地理人工智能样本信息模型。组织环节利用样本信息模型构建样本库组织概念设计和逻辑模型,指导地理人工智能样本数据库建设。
共享环节旨在针对不同类别的样本,构建统一的目录管理和数据服务,既方便发现不同的样本数据集,也可以获取跨多个样本集的样本实例集合。集成环节通过样本数据管道实现样本的加载、预处理、转换、迭代等操作,并送入到训练环节,用作AI/ML模型的训练、验证或测试。
图 3 人工智能就绪工作流
4.2
样本共享服务
根据样本数据粒度的不同,样本共享服务包含两个层面的服务,一个是样本目录服务,以数据集为基本目录条目,实现样本数据集的发现。一个是样本数据服务,实现单个乃至跨数据集的样本数据实例查询检索。
样本目录服务组织和发布不同样本数据集的元数据,可以通过OGC API - Records标准接口提供访问。Record可以用来记录样本数据集的元数据信息,包括样本数据集的名称、描述、时间范围、地理位置、数据格式等元数据信息。用户可以通过OGC Records API提供一组标准化的查询参数(如时间、地理位置等)来发现满足自己需求的不同样本数据集。
样本数据服务提供了从样本库中获取一组样本数据单元的能力。其实现途径可以两种,一种是借鉴OGC API通用信息模型(OGC API – Common),遵循REST风格,通过指定一个URI来访问相应的样本数据资源:“/collections /{collectionId}/{viewId}”。该URI的组成中,“{collectionId}”代表某样本数据集的全局标识输入,“{viewId}”则对应返回的视图类型标识输入,例如样本单元集合数据视图标识为“items”。另外一种是借鉴STAC社区实现规范。其设计了一个数据目录模型(STAC Catalog),将各种数据项(STAC Item)按目录进行关联,每个数据项作为一个时空资产(Asset)数据和元数据信息集合,因此每个样本可以作为一个数据项,并提供了网络应用程序接口(STAC API)以便于发现和检索这些数据。
4.3
样本集成服务
原始数据集中的样本数据,往往还需要经过一系列的处理和转换,生成可供训练和评估深度学习模型的就绪形式,这一环节统称为样本集成服务,是地理人工智能样本数据与AI/ML模型相耦合的重要环节。可以通过样本数据管道提供与深度学习框架集成的样本服务,如图4所示,其主要包括样本数据加载、样本数据预处理、样本数据转换、样本数据迭代等流程。
(1)样本数据加载
样本数据加载管道根据AI/ML任务的需求,通过样本目录和数据服务访问相同或不同数据集来源的样本数据,实现从数据集中完成样本数据的抽取、转换和加载。基于标准化的样本信息模型,支持将样本数据集中提供的样本资源进行重新组合,组合后的样本资源作为用户自定义的全新的数据集,实现样本资源的定制化生成,以便模型更好地理解和学习样本数据。
(2)样本数据预处理
在地理人工智能AI/ML任务中,样本通道数、格式和标签的一致性是非常重要的,通常需要进行相应的处理以保证一致性。
在进行AI/ML任务时,不同通道数的图像需要保持一致性,以保证模型的训练和推断的准确性和稳定性。对于多通道的图像,需要将所有图像的通道数统一,以便于模型对输入数据进行处理。这通常需要进行图像通道的增加或减少,可以通过图像融合、通道拆分、通道填充等方式实现。
为了模型能够正确地读取和处理图像数据,需要将图像的格式保持一致性。在进行图像格式转换时,需要注意保持数据类型、颜色空间、图像尺寸和数据格式的一致性,以避免因数据不一致而导致的模型学习错误的特征。
标签的语义类别一致化处理是指对标签进行统一的语义类别划分,使用统一的类别体系来表达,以便于模型能够更好地理解和学习不同类别之间的关系。一致的标签语义类别可以减少可能存在的类别高度相关性,提高模型训练的效率和准确性。
(3)样本数据转换
样本数据转换过程通常需要对数据进行类型转换、维度转换和归一化处理。对于不同的深度学习框架和模型,输入格式可能有所不同,但一般需要将原始的样本数据转换为模型需要的输入格式;维度转换过程根据不同的框架的要求格式要求调整数据维度顺序;归一化处理确保数据在一定范围内,以使得不同特征之间具有相同的尺度和范围。
(4)样本数据迭代
样本数据迭代管道面向深度学习框架的数据集生成,将经过数据预处理和数据格式转换后的数据,结合不同的深度学习框架生成为深度学习算法所需的数据集,包括训练集、验证集和测试集等,并按照一定的规则对数据集进行切分、重排、打乱等操作,面向多进程、分布式训练,以便提高AI/ML算法的训练效率和泛化性。
图 4 样本数据管道
5 结论
本文针对目前地理人工智能领域样本多源异构与服务能力缺失等问题,围绕地理人工智能样本数据共享模型和服务方法展开了研究。从样本数据“信息模型-质量评估-共享服务”三个方面进行叙述,旨在解决多源异构的地理人工智能样本数据的统一建模问题、多应用场景的地理人工智能样本数据的质量评估问题、以及地理人工智能样本数据的共享服务问题。
首先,从概念和逻辑层面研究了样本数据的信息模型,提出了顾及标注、溯源、质量、更新、一致性的GeoAI样本信息模型,有助于实现多源异构地理人工智能样本数据的标准化表达,既为样本库组织提供了信息模型基础,也为GeoAI样本数据在网络环境下的共享提供互操作基础。
其次,针对场景级、对象级和像素级不同AI/ML应用,从样本数据质量信息需求出发,在空间数据质量体系下拓展样本数据质量指标体系,研究样本数据质量指标评估方法,探讨了低质量样本学习问题,为地理人工智能样本数据的质量评估和低质量样本使用提供了思路。
最后,面向人工智能就绪的SDI的建设需求,结合样本建库、共享与集成服务,提出了兼容OGC标准的地理人工智能样本服务模式,设计了基于数据管道的样本集成服务方法,为GeoAI样本数据的共享与深度学习模型耦合应用提供了支撑。
目前,国内外正在开展GeoAI样本建库和标准化相关工作,包括国际OGC的地理人工智能样本语言TrainingDML-AI和自然资源部的《地理人工智能样本数据库建设规范》标准,本文的研究为GeoAI样本的共享、建库与服务提供了研究基础,有助于指导标准的制定和发布,为空间数据基础设施走向AI就绪的SDI提供方法支撑。
转自:“测绘学术资讯”微信公众号
如有侵权,请联系本站删除!