投稿问答最小化  关闭

万维书刊APP下载

佳作分享| ICML-CSP: 地理位置与地理标记影像的空间自监督对比学习方法

2023/5/8 16:25:20  阅读:108 发布者:

原名:CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations

译名:CSP: 地理位置与地理标记影像的空间自监督对比学习方法

期刊:the Fortieth International Conference on Machine Learning (ICML 2023), Jul 23 - 29, 2023, Honolulu, Hawaii, USA. (CCF-A类会议, 与NeurIPSICLR并成为AI三大顶会)

网站:https://gengchenmai.github.io/csp-website/

ArXivhttps://arxiv.org/abs/2305.01118

代码:https://github.com/gengchenmai/csp

预训练模型:

https://www.dropbox.com/s/qxr644rj1qxekn2/model_dir.zip?dl=0

数据集:

https://www.dropbox.com/s/qxr644rj1qxekn2/model_dir.zip?dl=0

1. 文章简介

现实生活中有大量的地理位置标注的影像数据(geo-tagged images),例如遥感影像数据,无人机影像数据,Flickr影像数据,GBIFiNaturelist的物种影像数据,相比之下,有标签的影像数据(例如影像分类标签,影像语义分割标签等)非常稀少,并且标记数据尤其是遥感影像数据需要专业人才进行标注,标记成本很高。同时,在机器学习领域,对比学习(constrastive learning)在众多缺乏标记数据的计算机视觉和自然语言处理的任务中显示出了非常突出的优势,然而即便地理信息对于很多机器学习任务(例如根据物种影像的拍摄地点和时间来帮助物种图像分类)很有帮助,现有的对比学习方法并没有利用现有影像的地理信息。

为了能够在模型的预训练阶段,微调阶段以及模型预测阶段利用现有的大量的无标记的地理标注影像数据的地理信息,我们提出了一个新的给予地理标注影像数据自监督学习框架Constrastive Spatial Pre-Training (CSP)

类似于OpenAICLIP模型的结构,我们使用一个编码器对的结构来对影像和他的地理坐标分别编码,然后在位置镶嵌和影像镶嵌直接定义一个对比学习的目标函数,这样可以从影像信息中学到非常有效的位置表达,这种位置的表示可以通过迁移学习应用到下游的监督学习任务中,例如物种影像的精确分类和遥感影像分类。

我们的实验结果表明,CSP可以在iNat2018(物种精确分类)和fMoW(遥感影像分类)两个数据集上显著提高模型的精度,尤其是在INat2018数据集上,在不同的小样本学习的比例下,CSP可以把模型精度提高10%-34%

2.CSP模型

给定一个位置-影像对(xi, Ii),我们使用一个位置编码器(location encoder) e()和一个影像编码器(image encoder) f()分别把地理位置xi和影像Ii编码到对应的镶嵌空间里面,然后在他们直接定义一个对比学习的目标函数,如下图所示,我们用三种方法来生成对比学习的正样本和负样本:

1.In-batch negative sampling: 给定一批无标记的位置-影像对(xi, Ii),我们把正确的位置-影像对(xi, Ii)当做正样本(Figure 3(a)中红色框),把错位的位置影像对作为负样本(Figure 3(a)中灰色框);

2.Random negative location sampling:同样的我们把正确的位置-影像对(xi, Ii)当做正样本(Figure 3(b)中红色框),在球面上均匀采样到一些位置的负样本,把影像和位置的随机采样作为负样本(Figure 3(b)中灰色框);

3.SimCSE sample:受SimCSE的启发,我们使用两个完全一样的位置编码器,他们唯一的不同就是使用不同的dropout掩膜,我们把同一个位置输入两个位置编码器得到的位置镶嵌对作为正样本(Figure 3(c)中红色框),把不同位置输入两个位置编码器得到的位置镶嵌对作为负样本(Figure 3(c)中灰色框)。

为了测试不同的对比学习目标函数,我们使用了Noise Contrastive Estimation loss (NCE), and Contrastive Multi-classification loss (MC)。同时我们也对比了Mean Square Error loss (MSE)

下图Figure2(c)展示了CSP的整体模型架构已经跟现有的模型的区别:

1.Figure3(a)展示的是Sup.Only方法,他们分别对影像编码器和位置编码器做监督学习,在模型预测时合并他们的预测结果作为最终的预测结果,该模型缺点是仅能利用少量的标记数据,无法使用大量的为标记数据做预训练;

2.Figure3(b)展示的是Img.Only方法,这是很多遥感影像预训练的常用方式,他们通过使用地理位置,来生成正负样本,对影像编码器进行预训练,然后利用预训练的影像编码器在标记数据上做监督学习来微调模型,该类模型的缺点是地理信息只应用在了影像编码器的预训练过程中,模型的预测仅依赖于影像编码器,而我们实验表明,在预测模型中加入地理位置信息可以显著提高模型精度;

3.Figure3(c)展示的是CSP方法,我们先对影像编码器进行预训练,然后把预训练好的影像编码器和位置编码器做CSP的对比学习(Figure3(c)红色框),给定少量的标记数据,影像编码器和位置编码器均可以做监督学习来微调模型,最后他们的预测结果合并起来成为最终预测结果,可以看到CSP框架结合了以上两种方式的优点。

3.实验结果

我们把CSP用于两类影像分类任务,物种图像的精确分类和遥感影像分类。

我们用iNat2018数据集作为物种图像精确分类的代表数据集,Table 1对比了不同训练方法在iNat2018数据集上的效果,为了研究模型在不同比例的小样本学习的效果,我们会用不同比例λ%对训练数据进行采样,作为模型监督学习下微调的训练数据,Table 1可见在不同的λ%下,CSP-MC-BLD都能够显著击败现有的模型,这体现了CSP预训练的有效性。

我们还对不同的对比学习目标函数,不同的位置编码镶嵌的长度,以及不同的影像编码器(Inception V3ViT)下模型的精度做了研究(ablation study),具体结果请见原文。

我们用fMoW数据集作为遥感影像分类的代表数据集,Table 5 fMoW数据集上的效果, Table 5可见在不同的λ%下,CSP-MC-BLD都能够显著击败现有的模型,这体现了CSP预训练的在遥感影像分类任务上的有效性。

4.研究结论

使用大量的未标记的地理标注影像做预训练可以很低程度上提高模型的泛化行,尤其是在目前以ChatGPT为代表的基础大模型的AI潮流之下,如何建立地理的基础大模型应该是地理人工智能的研究重点,本文提出的CSP预训练框架为这种地理大模型的开发提供了技术思路。

5.文章引用格式

Mai, G., Lao, N., He, Y., Song, J., Ermon, S., 2023. Csp: Self-supervised contrastive spatial pre-training for geospatial-visual representations, in:International Conference on Machine Learning, PMLR.

转自:“科研圈内人”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com