近日,长江中游城市群气象生态环境遥感团队硕士生曹梦丹、张明副教授等撰写的“A two-stage machine learning algorithm for retrieving multiple aerosol properties over land: development and validation”论文发表在IEEE Transactions on Geoscience and Remote Sensing期刊,本研究得到国家自然科学基金(41975044、41905032和42171386)等项目资助。
基于卫星反演陆地气溶胶光学特性,特别是与尺寸相关的参数,仍具有一定挑战性。本研究发展了一种两阶段机器学习(ML)算法来缓解集成机器学习算法存在的高值低估和低值高估的问题,并利用MODIS数据反演陆地气溶胶光学厚度(AOD)、Ångström指数(AE)、细模态AOD比例(FMF)和细模态AOD(FAOD)。新ML算法包括三个步骤:(1)首先,利用从AERONET观测中匹配的样本数据训练ML模型;(2)然后,为了提高模型的极值的估算精度,分别使用划分的低值和高值样本训练低值和高值ML模型;(3)最后,应用权重插值法将三个ML模型值集成得到最终反演值。SONET站点验证结果表明,新ML算法反演的AOD(AE、FMF、FAOD)的Pearson相关系数(R)为0.894(0.638、0.661、0.865),RMSE为0.146(0.258、0.245、0.153),显著优于NASA MODIS产品的验证指标。与官方气溶胶产品的相互比较结果发现,新ML算法的AOD、AE、FMF和FAOD的空间格局与MODIS和POLDER产品的空间格局一致性较高。这些结果表明,本文提出的ML算法具有良好的性能和可迁移性,并表明ML方法能够应用于多光谱卫星传感器(如MODIS)反演多气溶胶特性。
1
数据和方法
1.1 研究数据
本研究使用的主要数据包括中国中东部2005-2021年的MOD02 1KM数据,AERONET和SONET地基观测数据,GRASP/POLDER和MOD04气溶胶产品以及ERA5气象数据和GMTED 2010高程数据。
1.2 模型选择
对多源数据进行重采样、云掩膜和时空匹配构建训练数据集。数据驱动的ML模型的性能由模型设置参数和输入变量决定。对于输入变量:根据参数重要性排序经多次测试最终确定。对于模型设置参数:使用了两阶段基于5折交叉验证的网格搜索方法来自动优化每个ML模型的超参数。
在确定模型参数后,为了选择最佳ML模型,使用基于样本的十折交叉验证来比较三种不同ML(XGB、LGB和RF)模型的性能。图1(仅展示AOD验证结果)显示XGB模型在评价指标上略胜于LGB且都优于RF模型。
图1. 基于样本的550 nm AOD十折交叉验证。(a)XGB模型,(b)LGB模型和(c)RF模型。实线表示1:1,虚线表示期望误差。颜色渐变表示比较点的密度。
我们将反演的AOD偏差与AERONET AOD进行了比较(图2),和之前研究相似,本研究的三种ML算法也存在高值低估和低值高估问题。RF模型总体具有最大偏差,XGB模型总体具有最小偏差。由于XGB具有更好的评价指标和更小的偏差,因此选择XGB进行两阶段模型构建。
图2. 反演的AOD偏差随AERONET AOD的变化。红线和蓝线分别表示偏差的中值和均值。蓝色阴影表示偏差的标准差。水平黑线表示零偏置,虚线表示期望误差。
1.3 两阶段ML模型
为了缓解集成机器学习算法存在的高值低估和低值高估问题,本研究提出了两阶段ML算法。首先,将所有样本输入到XGB模型中,称为M模型。然后,将低值和高值样本(根据M模型反演值确定)分别输入到XGB模型中,构建低值和高值模型,称为M1和M2。确定低值和高值样本的阈值很困难。我们首先通过使用所有训练样本训练M模型的十折交叉验证结果的1:1线和回归线的交点来区分高低样本,然后用划分的高值和低值样本训练ML模型,并根据交点再次划分高低样本,多次重复后确定高样本和低样本的阈值。最后,使用线性权重插值将两阶段模型的反演值进行集成得到最终反演值。
2
研究结果
2.1 与地面独立观测对比
图3显示了利用SONET观测值的ML、DB和DT AOD的总体验证结果。ML AOD显示最小偏差(MB=0.016),DB AOD(MB=0.029)的偏差略大于ML AOD。由于SONET站点主要位于城市地区,高地表反射率导致DT算法显著高估了AOD(MB=0.124)。具体而言,与MODIS DT和DB AOD相比,ML AOD RMSE指标降低了24.8-33.0%,EE_DT指标增加了28.5-66.0%。差异直方图还表明,DT高估了AOD,而DB和ML的偏差较小,相对于其他AOD产品,ML AOD偏差更集中在0值附近。
图3. 使用SONET观测验证550nm AOD的结果。(a)和(d)对于ML AOD,(b)和(e)对于DB AOD,(c)和(f)对于DT AOD。
图4显示了基于SONET观测的AE的独立验证结果。DT和DB AE与地面观测的一致性较差,ML AE的R为0.68,MB为0.042,RMSE为0.258,EE_AE为0.874(图4(a)),这些验证指标明显优于MODIS DB(图4(b))和DT(图4(c))AE。
图4. 和图3相同,但是对于AE参数。
图5显示了基于SONET观测的FMF独立验证结果。ML FMF和SONET FMF的R为0.661,RMSE为0.245,EE_FMF为0.539。这些指标优于MODIS DT的指标(R=0.355、RMSE=0.313和EE_FMF=0.433)。注意到ML算法高估了FMF(MB=0.189),特别是在低FMF场景中。而MODIS DT低估了FMF(MB=-0.087)。
图5. 基于SONET站点观测的550 nm FMF的验证结果。(a)和(c)对于ML FMF,(b)和(d)对于DT FMF。
图6显示了基于SONET观测对FAOD进行独立验证的结果。ML FAOD和SONET FAOD的R(RMSE,EE_DT)为0.865(0.153,0.465)。尽管这些指标优于MODIS DT(R=0.676、RMSE=0.191和EE_DT=0.382),但FAOD未达到期望精度,即其EE_DT小于0.68。ML算法高估了FAOD,这与ML FMF高估有关,而DT算法低估了FMF和FAOD(图5和图6)。
图6. 和图5相同,但是FAOD参数。
2.2 时空模式比较
图7显示了ML、DB和DT算法的多年(2005-2021)AOD平均值及其差异。三种不同算法的AOD表现出较高的空间格局一致性。总体而言,DT的平均AOD最高,DB的平均AOD最低。从AOD差异图还可以看出,华北平原的ML和DB AOD都低于DT AOD,ML和DB之间的AOD差异较小。在西北地区,DB低估了AOD,DT高估了AOD,导致两者之间存在负偏差,ML AOD和DT AOD之间的差异在该区域较小。
图7. 多年(2005-2021)550 nm AOD空间分布模式及其在0.1°空间分辨率下的差值。(a)ML AOD平均值,(b)DB AOD平均值,(c)DT AOD平均值,(d)ML AOD–DB AOD,(e)ML AOD–DT AOD,以及(f)DT AOD–DB AOD。
图8-图10显示ML算法的AE、FMF和FAOD的空间分布模式与POLDER-GRASP产品的空间分布模式一致性较高。ML AE与POLDER AE的差异主要集中在华中地区(长江中游省份),但其差异基本在<±0.25的水平,小于AE的预期误差(定义为±0.4)。与AE类似,两个FMF产品在华北平原都表现出负偏差,而在长江中游省份则表现出正偏差。ML FAOD和POLDER-GRASP FAOD表现出良好的一致性(图10(a)和(b))。
图8.(a)ML算法和(b)POLDER-GRASP产品的0.1°空间分辨率下的440-870 nm AE年空间分布模式,以及(c)它们的差异。上下色带分别表示AE值及其差值。
图9. 和图8相同,但是对于550nm FMF参数。上下色带分别表示FMF值及其差值。
图10. 和图8相同,但对于550 nm FAOD参数。上下色带分别代表FAOD及其差值。
4
结果与讨论
本研究发展了一种两阶段机器学习反演气溶胶特性的算法,包括AOD、AE、FMF和FAOD。两阶段算法的目的是缓解传统集成ML模型的低值高估和高值低估问题。该算法的主要输入变量是MODIS观测到的多光谱反射率(412–2110 nm的9个波段),并考虑了与辐射传输过程相关的一些变量(如海拔、大气水汽和臭氧含量)。AERONET网络观测的气溶胶特性用于训练和优化ML模型,而SONET网络观测的气溶胶特性用于验证ML算法的结果。因此,用于训练和验证的地面观测是完全独立的。
独立验证结果表明,与MODIS DT和DB AOD相比,ML算法AOD反演具有更高的精度,即更高的相关系数和期望误差,以及更低的MAE和RMSE。本研究分析了ML算法反演的空间分布模式的合理性。总体而言,ML AOD年均值与DT和DB AOD年均值一致,但缓解了对DT的高估和对DB的低估。ML算法的AE、FMF和FAOD的空间分布模式与POLDER-GRASP产品的一致性较好,都呈现出从西北到东南的递增分布。它们的差异都在预期精度范围内(即AE为±0.4,FMF为±0.2)。这些结果证明了新的两阶段ML算法良好的精度和迁移性能,并说明了使用ML方法应用单角度和多光谱传感器反演多个气溶胶特性参数的潜力。
CITATION
Mengdan Cao, Ming Zhang, Xin Su, Lunche Wang. 2023. A two-stage machine learning algorithm for retrieving multiple aerosol properties over land: development and validation. IEEE Transactions on Geoscience and Remote Sensing, https://doi.org/10.1109/TGRS.2023.3307934.
转自:“生态遥感前沿”微信公众号
如有侵权,请联系本站删除!