【IEEE】两阶段机器算法反演陆地多气溶胶特性参数

2023/8/31 11:09:50　阅读：118　发布者：

近日，长江中游城市群气象生态环境遥感团队硕士生曹梦丹、张明副教授等撰写的“A two-stage machine learning algorithm for retrieving multiple aerosol properties over land: development and validation”论文发表在IEEE Transactions on Geoscience and Remote Sensing期刊，本研究得到国家自然科学基金（41975044、41905032和42171386）等项目资助。

基于卫星反演陆地气溶胶光学特性，特别是与尺寸相关的参数，仍具有一定挑战性。本研究发展了一种两阶段机器学习（ML）算法来缓解集成机器学习算法存在的高值低估和低值高估的问题，并利用MODIS数据反演陆地气溶胶光学厚度（AOD）、Ångström指数（AE）、细模态AOD比例（FMF）和细模态AOD（FAOD）。新ML算法包括三个步骤：（1）首先，利用从AERONET观测中匹配的样本数据训练ML模型；（2）然后，为了提高模型的极值的估算精度，分别使用划分的低值和高值样本训练低值和高值ML模型；（3）最后，应用权重插值法将三个ML模型值集成得到最终反演值。SONET站点验证结果表明，新ML算法反演的AOD（AE、FMF、FAOD）的Pearson相关系数（R）为0.894（0.638、0.661、0.865），RMSE为0.146（0.258、0.245、0.153），显著优于NASA MODIS产品的验证指标。与官方气溶胶产品的相互比较结果发现，新ML算法的AOD、AE、FMF和FAOD的空间格局与MODIS和POLDER产品的空间格局一致性较高。这些结果表明，本文提出的ML算法具有良好的性能和可迁移性，并表明ML方法能够应用于多光谱卫星传感器（如MODIS）反演多气溶胶特性。

数据和方法

1.1 研究数据

本研究使用的主要数据包括中国中东部2005-2021年的MOD02 1KM数据，AERONET和SONET地基观测数据，GRASP/POLDER和MOD04气溶胶产品以及ERA5气象数据和GMTED 2010高程数据。

1.2 模型选择

对多源数据进行重采样、云掩膜和时空匹配构建训练数据集。数据驱动的ML模型的性能由模型设置参数和输入变量决定。对于输入变量：根据参数重要性排序经多次测试最终确定。对于模型设置参数：使用了两阶段基于5折交叉验证的网格搜索方法来自动优化每个ML模型的超参数。

在确定模型参数后，为了选择最佳ML模型，使用基于样本的十折交叉验证来比较三种不同ML（XGB、LGB和RF）模型的性能。图1（仅展示AOD验证结果）显示XGB模型在评价指标上略胜于LGB且都优于RF模型。

图1. 基于样本的550 nm AOD十折交叉验证。（a）XGB模型，（b）LGB模型和（c）RF模型。实线表示1:1，虚线表示期望误差。颜色渐变表示比较点的密度。

我们将反演的AOD偏差与AERONET AOD进行了比较（图2），和之前研究相似，本研究的三种ML算法也存在高值低估和低值高估问题。RF模型总体具有最大偏差，XGB模型总体具有最小偏差。由于XGB具有更好的评价指标和更小的偏差，因此选择XGB进行两阶段模型构建。

图2. 反演的AOD偏差随AERONET AOD的变化。红线和蓝线分别表示偏差的中值和均值。蓝色阴影表示偏差的标准差。水平黑线表示零偏置，虚线表示期望误差。

1.3 两阶段ML模型

为了缓解集成机器学习算法存在的高值低估和低值高估问题，本研究提出了两阶段ML算法。首先，将所有样本输入到XGB模型中，称为M模型。然后，将低值和高值样本（根据M模型反演值确定）分别输入到XGB模型中，构建低值和高值模型，称为M1和M2。确定低值和高值样本的阈值很困难。我们首先通过使用所有训练样本训练M模型的十折交叉验证结果的1:1线和回归线的交点来区分高低样本，然后用划分的高值和低值样本训练ML模型，并根据交点再次划分高低样本，多次重复后确定高样本和低样本的阈值。最后，使用线性权重插值将两阶段模型的反演值进行集成得到最终反演值。

研究结果

2.1 与地面独立观测对比

图3显示了利用SONET观测值的ML、DB和DT AOD的总体验证结果。ML AOD显示最小偏差（MB=0.016），DB AOD（MB=0.029）的偏差略大于ML AOD。由于SONET站点主要位于城市地区，高地表反射率导致DT算法显著高估了AOD（MB=0.124）。具体而言，与MODIS DT和DB AOD相比，ML AOD RMSE指标降低了24.8-33.0%，EE_DT指标增加了28.5-66.0%。差异直方图还表明，DT高估了AOD，而DB和ML的偏差较小，相对于其他AOD产品，ML AOD偏差更集中在0值附近。

图3. 使用SONET观测验证550nm AOD的结果。（a）和（d）对于ML AOD，（b）和（e）对于DB AOD，（c）和（f）对于DT AOD。

图4显示了基于SONET观测的AE的独立验证结果。DT和DB AE与地面观测的一致性较差，ML AE的R为0.68，MB为0.042，RMSE为0.258，EE_AE为0.874（图4（a）），这些验证指标明显优于MODIS DB（图4（b））和DT(图4(c))AE。

图4. 和图3相同，但是对于AE参数。

图5显示了基于SONET观测的FMF独立验证结果。ML FMF和SONET FMF的R为0.661，RMSE为0.245，EE_FMF为0.539。这些指标优于MODIS DT的指标（R=0.355、RMSE=0.313和EE_FMF=0.433）。注意到ML算法高估了FMF(MB=0.189)，特别是在低FMF场景中。而MODIS DT低估了FMF(MB=-0.087)。

图5. 基于SONET站点观测的550 nm FMF的验证结果。（a）和（c）对于ML FMF，（b）和（d）对于DT FMF。

图6显示了基于SONET观测对FAOD进行独立验证的结果。ML FAOD和SONET FAOD的R(RMSE,EE_DT)为0.865(0.153,0.465)。尽管这些指标优于MODIS DT（R=0.676、RMSE=0.191和EE_DT=0.382），但FAOD未达到期望精度，即其EE_DT小于0.68。ML算法高估了FAOD，这与ML FMF高估有关，而DT算法低估了FMF和FAOD（图5和图6）。

图6. 和图5相同，但是FAOD参数。

2.2 时空模式比较

图7显示了ML、DB和DT算法的多年（2005-2021）AOD平均值及其差异。三种不同算法的AOD表现出较高的空间格局一致性。总体而言，DT的平均AOD最高，DB的平均AOD最低。从AOD差异图还可以看出，华北平原的ML和DB AOD都低于DT AOD，ML和DB之间的AOD差异较小。在西北地区，DB低估了AOD，DT高估了AOD，导致两者之间存在负偏差，ML AOD和DT AOD之间的差异在该区域较小。

图7. 多年（2005-2021）550 nm AOD空间分布模式及其在0.1°空间分辨率下的差值。(a)ML AOD平均值，(b)DB AOD平均值，(c)DT AOD平均值，(d)ML AOD–DB AOD，(e)ML AOD–DT AOD，以及(f)DT AOD–DB AOD。

图8-图10显示ML算法的AE、FMF和FAOD的空间分布模式与POLDER-GRASP产品的空间分布模式一致性较高。ML AE与POLDER AE的差异主要集中在华中地区（长江中游省份），但其差异基本在<±0.25的水平，小于AE的预期误差（定义为±0.4）。与AE类似，两个FMF产品在华北平原都表现出负偏差，而在长江中游省份则表现出正偏差。ML FAOD和POLDER-GRASP FAOD表现出良好的一致性（图10（a）和（b））。

图8.（a）ML算法和（b）POLDER-GRASP产品的0.1°空间分辨率下的440-870 nm AE年空间分布模式，以及（c）它们的差异。上下色带分别表示AE值及其差值。

图9. 和图8相同，但是对于550nm FMF参数。上下色带分别表示FMF值及其差值。

图10. 和图8相同，但对于550 nm FAOD参数。上下色带分别代表FAOD及其差值。

结果与讨论

本研究发展了一种两阶段机器学习反演气溶胶特性的算法，包括AOD、AE、FMF和FAOD。两阶段算法的目的是缓解传统集成ML模型的低值高估和高值低估问题。该算法的主要输入变量是MODIS观测到的多光谱反射率（412–2110 nm的9个波段），并考虑了与辐射传输过程相关的一些变量（如海拔、大气水汽和臭氧含量）。AERONET网络观测的气溶胶特性用于训练和优化ML模型，而SONET网络观测的气溶胶特性用于验证ML算法的结果。因此，用于训练和验证的地面观测是完全独立的。

独立验证结果表明，与MODIS DT和DB AOD相比，ML算法AOD反演具有更高的精度，即更高的相关系数和期望误差，以及更低的MAE和RMSE。本研究分析了ML算法反演的空间分布模式的合理性。总体而言，ML AOD年均值与DT和DB AOD年均值一致，但缓解了对DT的高估和对DB的低估。ML算法的AE、FMF和FAOD的空间分布模式与POLDER-GRASP产品的一致性较好，都呈现出从西北到东南的递增分布。它们的差异都在预期精度范围内（即AE为±0.4，FMF为±0.2）。这些结果证明了新的两阶段ML算法良好的精度和迁移性能，并说明了使用ML方法应用单角度和多光谱传感器反演多个气溶胶特性参数的潜力。

CITATION

Mengdan Cao, Ming Zhang, Xin Su, Lunche Wang. 2023. A two-stage machine learning algorithm for retrieving multiple aerosol properties over land: development and validation. IEEE Transactions on Geoscience and Remote Sensing, https://doi.org/10.1109/TGRS.2023.3307934.

转自：“生态遥感前沿”微信公众号

如有侵权，请联系本站删除！

上一篇： 南京师范大学闾国年教授团队在全球土壤侵蚀计算领域取得重要进展
下一篇： 【Humanities & Social Sciences Communications】中国SDGs协同与权衡时空演变

投稿问答最小化 关闭

【IEEE】两阶段机器算法反演陆地多气溶胶特性参数

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

【IEEE】两阶段机器算法反演陆地多气溶胶特性参数

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭