投稿问答最小化  关闭

万维书刊APP下载

【IEEE】两阶段机器算法反演陆地多气溶胶特性参数

2023/8/31 11:09:50  阅读:90 发布者:

近日,长江中游城市群气象生态环境遥感团队硕士生曹梦丹、张明副教授等撰写的A two-stage machine learning algorithm for retrieving multiple aerosol properties over land: development and validation”论文发表在IEEE Transactions on Geoscience and Remote Sensing期刊,本研究得到国家自然科学基金(419750444190503242171386)等项目资助。

 基于卫星反演陆地气溶胶光学特性,特别是与尺寸相关的参数,仍具有一定挑战性。本研究发展了一种两阶段机器学习(ML)算法来缓解集成机器学习算法存在的高值低估和低值高估的问题,并利用MODIS数据反演陆地气溶胶光学厚度(AOD)、Ångström指数(AE)、细模态AOD比例(FMF)和细模态AODFAOD)。新ML算法包括三个步骤:(1)首先,利用从AERONET观测中匹配的样本数据训练ML模型;(2)然后,为了提高模型的极值的估算精度,分别使用划分的低值和高值样本训练低值和高值ML模型;(3)最后,应用权重插值法将三个ML模型值集成得到最终反演值。SONET站点验证结果表明,新ML算法反演的AODAEFMFFAOD)的Pearson相关系数(R)为0.8940.6380.6610.865),RMSE0.1460.2580.2450.153),显著优于NASA MODIS产品的验证指标。与官方气溶胶产品的相互比较结果发现,新ML算法的AODAEFMFFAOD的空间格局与MODISPOLDER产品的空间格局一致性较高。这些结果表明,本文提出的ML算法具有良好的性能和可迁移性,并表明ML方法能够应用于多光谱卫星传感器(如MODIS)反演多气溶胶特性。

1

数据和方法

1.1 研究数据

本研究使用的主要数据包括中国中东部2005-2021年的MOD02 1KM数据,AERONETSONET地基观测数据,GRASP/POLDERMOD04气溶胶产品以及ERA5气象数据和GMTED 2010高程数据。

1.2 模型选择

 对多源数据进行重采样、云掩膜和时空匹配构建训练数据集。数据驱动的ML模型的性能由模型设置参数和输入变量决定。对于输入变量:根据参数重要性排序经多次测试最终确定。对于模型设置参数:使用了两阶段基于5折交叉验证的网格搜索方法来自动优化每个ML模型的超参数。

 在确定模型参数后,为了选择最佳ML模型,使用基于样本的十折交叉验证来比较三种不同MLXGBLGBRF)模型的性能。图1(仅展示AOD验证结果)显示XGB模型在评价指标上略胜于LGB且都优于RF模型。

1. 基于样本的550 nm AOD十折交叉验证。(aXGB模型,(bLGB模型和(cRF模型。实线表示1:1,虚线表示期望误差。颜色渐变表示比较点的密度。

 我们将反演的AOD偏差与AERONET AOD进行了比较(图2),和之前研究相似,本研究的三种ML算法也存在高值低估和低值高估问题。RF模型总体具有最大偏差,XGB模型总体具有最小偏差。由于XGB具有更好的评价指标和更小的偏差,因此选择XGB进行两阶段模型构建。

2. 反演的AOD偏差随AERONET AOD的变化。红线和蓝线分别表示偏差的中值和均值。蓝色阴影表示偏差的标准差。水平黑线表示零偏置,虚线表示期望误差。

1.3 两阶段ML模型

 为了缓解集成机器学习算法存在的高值低估和低值高估问题,本研究提出了两阶段ML算法。首先,将所有样本输入到XGB模型中,称为M模型。然后,将低值和高值样本(根据M模型反演值确定)分别输入到XGB模型中,构建低值和高值模型,称为M1M2。确定低值和高值样本的阈值很困难。我们首先通过使用所有训练样本训练M模型的十折交叉验证结果的1:1线和回归线的交点来区分高低样本,然后用划分的高值和低值样本训练ML模型,并根据交点再次划分高低样本,多次重复后确定高样本和低样本的阈值。最后,使用线性权重插值将两阶段模型的反演值进行集成得到最终反演值。

2

研究结果

2.1 与地面独立观测对比

 3显示了利用SONET观测值的MLDBDT AOD的总体验证结果。ML AOD显示最小偏差(MB=0.016),DB AODMB=0.029)的偏差略大于ML AOD。由于SONET站点主要位于城市地区,高地表反射率导致DT算法显著高估了AODMB=0.124)。具体而言,与MODIS DTDB AOD相比,ML AOD RMSE指标降低了24.8-33.0%EE_DT指标增加了28.5-66.0%。差异直方图还表明,DT高估了AOD,而DBML的偏差较小,相对于其他AOD产品,ML AOD偏差更集中在0值附近。

3. 使用SONET观测验证550nm AOD的结果。(a)和(d)对于ML AOD,(b)和(e)对于DB AOD,(c)和(f)对于DT AOD

 4显示了基于SONET观测的AE的独立验证结果。DTDB AE与地面观测的一致性较差,ML AER0.68MB0.042RMSE0.258EE_AE0.874(图4a)),这些验证指标明显优于MODIS DB(图4b))和DT(4(c))AE

4. 和图3相同,但是对于AE参数。

 5显示了基于SONET观测的FMF独立验证结果。ML FMFSONET FMFR0.661RMSE0.245EE_FMF0.539。这些指标优于MODIS DT的指标(R=0.355RMSE=0.313EE_FMF=0.433)。注意到ML算法高估了FMF(MB=0.189),特别是在低FMF场景中。而MODIS DT低估了FMF(MB=-0.087)

5. 基于SONET站点观测的550 nm FMF的验证结果。(a)和(c)对于ML FMF,(b)和(d)对于DT FMF

 6显示了基于SONET观测对FAOD进行独立验证的结果。ML FAODSONET FAODR(RMSE,EE_DT)0.865(0.153,0.465)。尽管这些指标优于MODIS DTR=0.676RMSE=0.191EE_DT=0.382),但FAOD未达到期望精度,即其EE_DT小于0.68ML算法高估了FAOD,这与ML FMF高估有关,而DT算法低估了FMFFAOD(图5和图6)。

6. 和图5相同,但是FAOD参数。

2.2 时空模式比较

 7显示了MLDBDT算法的多年(2005-2021AOD平均值及其差异。三种不同算法的AOD表现出较高的空间格局一致性。总体而言,DT的平均AOD最高,DB的平均AOD最低。从AOD差异图还可以看出,华北平原的MLDB AOD都低于DT AODMLDB之间的AOD差异较小。在西北地区,DB低估了AODDT高估了AOD,导致两者之间存在负偏差,ML AODDT AOD之间的差异在该区域较小。

7. 多年(2005-2021550 nm AOD空间分布模式及其在0.1°空间分辨率下的差值。(a)ML AOD平均值,(b)DB AOD平均值,(c)DT AOD平均值,(d)ML AODDB AOD(e)ML AODDT AOD,以及(f)DT AODDB AOD

 8-10显示ML算法的AEFMFFAOD的空间分布模式与POLDER-GRASP产品的空间分布模式一致性较高。ML AEPOLDER AE的差异主要集中在华中地区(长江中游省份),但其差异基本在<±0.25的水平,小于AE的预期误差(定义为±0.4)。与AE类似,两个FMF产品在华北平原都表现出负偏差,而在长江中游省份则表现出正偏差。ML FAODPOLDER-GRASP FAOD表现出良好的一致性(图10a)和(b))。

8.aML算法和(bPOLDER-GRASP产品的0.1°空间分辨率下的440-870 nm AE年空间分布模式,以及(c)它们的差异。上下色带分别表示AE值及其差值。

9. 和图8相同,但是对于550nm FMF参数。上下色带分别表示FMF值及其差值。

10. 和图8相同,但对于550 nm FAOD参数。上下色带分别代表FAOD及其差值。

4

结果与讨论

 本研究发展了一种两阶段机器学习反演气溶胶特性的算法,包括AODAEFMFFAOD。两阶段算法的目的是缓解传统集成ML模型的低值高估和高值低估问题。该算法的主要输入变量是MODIS观测到的多光谱反射率(4122110 nm9个波段),并考虑了与辐射传输过程相关的一些变量(如海拔、大气水汽和臭氧含量)。AERONET网络观测的气溶胶特性用于训练和优化ML模型,而SONET网络观测的气溶胶特性用于验证ML算法的结果。因此,用于训练和验证的地面观测是完全独立的。

 独立验证结果表明,与MODIS DTDB AOD相比,ML算法AOD反演具有更高的精度,即更高的相关系数和期望误差,以及更低的MAERMSE。本研究分析了ML算法反演的空间分布模式的合理性。总体而言,ML AOD年均值与DTDB AOD年均值一致,但缓解了对DT的高估和对DB的低估。ML算法的AEFMFFAOD的空间分布模式与POLDER-GRASP产品的一致性较好,都呈现出从西北到东南的递增分布。它们的差异都在预期精度范围内(即AE为±0.4FMF为±0.2)。这些结果证明了新的两阶段ML算法良好的精度和迁移性能,并说明了使用ML方法应用单角度和多光谱传感器反演多个气溶胶特性参数的潜力。

CITATION

Mengdan Cao, Ming Zhang, Xin Su, Lunche Wang. 2023. A two-stage machine learning algorithm for retrieving multiple aerosol properties over land: development and validation. IEEE Transactions on Geoscience and Remote Sensing, https://doi.org/10.1109/TGRS.2023.3307934.

转自:“生态遥感前沿”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com