本文改编自学术论文
《RSEI应使用主成分分析或核主成分分析》
已刊载于《武汉大学学报(信息科学版)》2023年第4期
徐涵秋1,2 李春强1, 2 林梦婧3
1.福州大学环境与安全工程学院, 福州大学遥感信息工程研究所, 福建 福州, 350116
2.福州大学福建省水土流失遥感监测评价与灾害防治重点实验室, 福建 福州, 350116
3.中国科学院城市环境研究所, 福建 厦门, 361021
徐涵秋
博士,教授,博士生导师,主要从事环境与资源遥感应用研究。hxu@fzu.edu.cn
摘 要
nRSEI (nonlinear remote sensing ecological index)是新近提出的遥感生态指数,它采用核主成分分析(kernel principal component analysis, kPCA)来集成模型的各个分指标。其主要根据是认为原RSEI采用的湿度、绿度、干度、热度这4个指标在北京研究区的相关关系总体为弱相关,因此需要采用专门处理非线性关系的 kPCA来集成这4个指标。为此探讨了北京地区这4个指标的相关关系类型,并对新指数验证方法的有效性进行了深入分析。结果表明,北京地区这4个指标总体呈显著的强线性相关关系,因此并不适合采用kPCA集成;新指数的精度验证方法也存在明显的缺陷,不能证明新指数的有效性。同时还就遥感建模的可行性、模型的普适性、指标尺度的一致性,以及模型精度的验证方法、标准参考影像的选取和验证所需的样本量等遥感研究论文中常见的基础问题进行了讨论。
引 用
徐涵秋, 李春强, 林梦婧. RSEI应使用主成分分析或核主成分分析?[J]. 武汉大学学报 ( 信息科学版), 2023, 48(4): 506-513. doi: 10.13203/j.whugis20220319
遥感对地观测技术以其宏观、快速、可周期性重复等优点在生态监测与评估中发挥着重要的作用,各种基于遥感的生态监测和评价技术也应运而生。其中,遥感生态指数(remote sensing based ecological index,RSEI) 是近年来应用较广的一项技术。RSEI选用了湿度、绿度、干度和热度等4个人类能够直观感受,且与人类生存息息相关的重要因子作为生态指标,并分别由4个对应的遥感因子来代表,分别为NDVI (normalized difference vegetation index)、Wet、NDBSI (normalized difference built-up and soil index)和LST (land surface temperature)。指标的集成采用了主成分变换技术。由于该指数完全基于遥感技术,各指标的权重由主成分变换生成的荷载值来客观确定,没有人为主观定权,因此模型具有较强的鲁棒性,已被广泛应用于不同地理条件的地区,相关论文的引用已达1 200多次。
文献[9]新近对RSEI进行了修改,提出了2个指数,分别为mRSEI (modified RSEI)和nRSEI (nonlinear RSEI)。前者在RSEI中新加了气溶胶光学厚度(aerosol optical depth,AOD)指标,后者将RSEI中各指标的集成技术由主成分分析(principal component analysis,PCA)替换为核主成分分析(kernel PCA,kPCA)。由于在RSEI中加入新指标构成mRSEI类的同名指数已经较多,因此本文主要讨论采用kPCA合成的nRSEI指数。文献[9]还构建了一种生态环境指数(eco-environmental index,EI),并用来对修改后的nRSEI等指数进行精度评价。因此,本文将重点讨论以下问题:(1) RSEI究竟应采用PCA或者kPCA集成?(2) 文献[9]构建的EI指数究竟能否作为验证的参考标准?本文同时还就nRSEI、mRSEI指数构建涉及的若干遥感科学论文写作的基础问题进行了分析和讨论。
1 基础学科的空间尺度分异
nRSEI与原RSEI的区别可表示为:
nRSEI=kPC1[f( Wet, NDVI, NDBSI, LST )] (1)
RSEI =PC1[f( Wet, NDVI, NDBSI, LST )] (2)
式中,Wet、NDVI、NDBSI、LST是分别对应湿度、绿度、干度、热度4个指标的遥感模型。
文献[9]认为在其研究的北京地区,公式中的Wet、NDVI、NDBSI、LST这4个指标之间的关系绝大部分是弱线性关系,因此不能采用处理线性关系的PCA来集成,而必须采用处理非线性关系的kPCA。因此问题就可以归结为究竟这4个指标变量之间是线性或非线性关系?
表1是文献[9]研究的北京地区Landsat 8影像4个指标的Pearson相关系数,表 1左侧是2019-05-13影像的相关系数,它们直接引自文献[9]中的表 5。该作者同时还使用了另两幅北京市影像,但没有提供这2幅影像4个指标的相关系数数据。为此,本文计算了其中2017-05-23影像的这4个指标的相关系数,结果列于表 1右侧。由于相关性的判断并非单靠相关系数本身,显著性指标也是另一重要依据,所以在进行相关性分析时仅确定r值是不够的,还必须进行统计学的显著性检验。为此,笔者采用t-test来检验各指标之间是否显著相关。鉴于相关系数还可能存在误导的情况,如y = x和y = 6x的相关系数完全相同,都是r = 1,但后者的x只是y的1/6,而前者是1∶1,因此图1进一步图示了各指标间的相关关系,以充分考察这4个指标之间的关系。
表1 北京市Landsat 8影像4个指标之间的相关系数
注:**代表指标间的相关关系通过了p < 0.000 1 (双尾)的显著性检验。
图1 2017-05-23影像4个指标相关关系散点图
文献[9]认为,2019-05-13北京影像4个指标的相关系数中,只有NDVI与NDBSI之间的―0.969具有强的线性相关性,其他指标间皆为弱线性相关。这也是文献[9]中能提供用于证明非线性关系的唯一数据,并据此认为必须采用kPCA来集成这4个指标。显然,采用PCA或者kPCA的问题就归结为如何判断线性相关的强弱性。
Schober等、Rumsey、Dancey等分别划分了5个线性相关强度等级(见表 2),它们虽然略有差异,但都将r > |±0.7|作为强相关,而至少是r < |±0.5|才是弱相关。从表 1的数据来看,文献[9]提供的北京2019-05-13数据中,没有任何指标的相关系数是小于|±0.5|,平均绝对值为0.723,按表 2的划分,总体为强相关。笔者计算的北京2017-05-23影像4个指标的相关系数中,也没有小于|±0.5|的,平均绝对值为0.741,同样表现为强相关。显著性检验表明所有指标的线性关系皆为极显著相关。图 1中各指标之间的散点图形也表现出明显的线性特征。因此文献[9]将总体为线性强相关的指标关系主观地判断为弱相关,牵强地采用kPCA来集成这4个指标是缺乏充分理由的。
表2 线性相关系数强度及其解释
值得注意的是,文献[9]还指出,在另一指数mRSEI中新加入的AOD指标和NDVI、LST、NDBSI为弱相关,与Wet不相关,但却没有给出任何实际相关系数的数据予以证明。更耐人寻味的是,既然AOD与这4个指标不是弱相关就是不相关,那么文献[9]基于AOD提出的mRSEI指数为什么不用kPCA集成,却仍用PCA集成?
2 精度验证的有效性
文献[9]采用了两种不同的方法来分别验证所创建的nRSEI和mRSEI指数,以下将讨论这两种验证方法的有效性。
2.1
mRSEI指数验证的有效性
文献[9]将自己创建的EI指数作为mRSEI和RSEI对比验证的标准参考影像,通过对mRSEI、RSEI与EI影像进行抽样,计算出各对应样点的差值来进行精度分析。但是,这一验证方法存在以下4个问题:
1) EI指数与RSEI、mRSEI指数是否具有可比性。RSEI和mRSEI主要由湿度、绿度、干度和热度等4~5个遥感指标合成,而作为标准参考影像的EI则是由23个指标合成,其中有18个非遥感指标,并含有人均GDP(gross domestic product)、固定资产投资、粮食产量、第三产业比重等16个社会经济统计指标。文献[9]并没有证明由这些属性完全不同的指标集成的EI指数与RSEI和mRSEI是否具有可比性。现有许多研究都曾将RSEI与国家生态环境部官方使用的生态环境指数进行验证,这是因为官方指数使用的5个指标中有4个与RSEI对应的4个指标很接近,因此二者具有明显的可比性。而文献[9]中的EI指数所使用的指标与RSEI和mRSEI的指标差距很大,它们之间并不具可比性。
2) EI影像是否可以作为标准参考影像。遥感精度验证的参考标准必须是客观真实的第三方数据,而EI影像是作者自制的影像,并非地面实际生态状况数据,本身也没有经过精度验证,因此不宜作为验证依据的标准参考影像。
3) EI指数影像如何生成。文献[9]中的验证是通过在mRSEI、RSEI和EI影像上进行抽样来对比,但作者没有说明EI影像是如何生成的。RSEI和mRSEI指数影像是由4~5个遥感指标合成,每个指标影像中的每个像元都有特定的数值,它们组成空间连续的影像。而EI是由含多达16个社会经济指标组成的指数,这16个指标都难以生成空间连续的影像,即难以生成每个像元都有特定数值的指标影像。例如,从文献[9]中提供的北京市统计数据网站来看(http://www.bjstats.gov.cn/tjsj/),北京市统计年鉴只提供市一级的统计数据,即北京市2019年第三产业比重只有1个数据(87.8%),这意味着整个北京市的空间范围内只有1个数据。而文献[9]中使用的30 m分辨率的北京市Landsat 8影像有多达1 800万个像元。由于作者没有说明EI影像的生成方法,因此不知她们是如何将87.8%这1个数据演变出1 800万个数据,使之成为空间连续的指标影像?即便能做出来,分辨率是多少?如果达不到30 m,由各种粗分辨率指标合成的EI影像的分辨率无疑将很低,在这种低分辨率EI影像上抽取的像元样本是无法与30 m分辨率的RSEI影像的像元样本进行匹配,而无法匹配的样本点就难以进行点对点的精度验证。
4) 验证的采样方法与样本量。文献[9]中没有说明其验证样本的采样方法和样本数量,根据其图6统计得知为16个样本(像元)。整个北京市30 m分辨率影像共有18 229 022个像元,其采样比例为1∶1 139 313,即1个样本代表约113万个像元,这显然未能满足300个样本的最低要求,由此获得的验证结果没有代表性。作者也没有说明她们采用的是随机或主观的采样方法,不同的方法将导致验证结果大相径庭。
综上,EI的指标与RSEI和mRSEI没有可比性,EI影像是否真正由23个指标合成不得而知,验证影像的尺度不匹配,样本点太少,采样方法未说明,这些都使得基于EI影像的验证不具有效性。
2.2
nRSEI指数验证的有效性
文献[9]并不采用以上EI影像来对nRSEI指数进行验证,理由是“由于实验区(152×152像元)较小,不能用与EI进行比较”,因此,采用了4个指标与指数的相关性、第一主成分PC1的占比、基于遥感影像的定性对比等方法将nRSEI与RSEI进行对比验证。作者并没有说明为什么会因为实验区太小而无法与EI对比的理由。如果作者自制的EI影像达到30 m的分辨率,则无论实验区的大小,都完全可以与nRSEI影像进行对比。因此,能够解释的唯一理由就是EI影像由于混入许多社会经济指标使得分辨率降低而无法与30 m分辨率的影像对比。假设该作者制作的EI影像的分辨率为500 m (实际上可能还达不到),在152×152个30 m像元的范围内只有约80个像元,而在同样的范围里,30 m像元的个数为152×152=23 104个,差距达280倍,二者确实无法对比,这也间接印证了§2.1第3)点关于EI为粗分辨率影像的推断。另外,文献[9]用kPCA集成的新指数nRSEI为什么不能制成全北京市的影像,而只能制作一小块(152×152像元)实验区?而能制成全北京市影像的mRSEI指数又为什么不用kPCA集成,而是用被作者自己认为不合适的PCA来集成?唯一可以解释的原因就是kPCA无法应用于大区域范围。
文献[9]在其图 7中对nRSEI和RSEI进行了定性对比,认为nRSEI更能反映局部植被的细节信息。但是作者只是泛泛而谈,没有在图中标识出任何nRSEI好于RSEI的具体位置,笔者就此让不同的研究生进行了测试,他们都未能分辨出文献[9]所说的二者在植被细节信息上的差异。倒是在其图 7(k)、7(l)中可以看出RSEI能够以不同深浅的红色调很好地辨析出不同建筑密度的生态差异,而nRSEI则基本都表现为一团红而无法予以区别。
文献[9]中表 5通过指数与4个指标相关性的对比,认为nRSEI与4个指标的相关性比RSEI强,因此认为nRSEI好于RSEI,但这一结论没有任何根据。科学的方法是要分析各指标与指数之间相关度的合理性,而不是越高越好。从文献[9]中表 5提供的北京市2019-05-13数据来看,nRSEI与植被的相关度高达0.929,确实高于RSEI的0.801。但大于0.9的相关系数一般只能见于林区,而北京市2019年的统计年鉴表明,北京市的森林覆盖率只有44%,加上公园和城市绿地等大致为55.8%,与林区的80%~90%的森林覆盖率差距甚远。因此,文献[9]获得的0.929明显太高,而RSEI的0.801似乎更为合理。同样,北京市并非炎热干旱地区,5月13日也还未进入炎夏,因此RSEI与LST的相关度(―0.557)也比nRSEI的―0.7更合理。nRSEI与相关指标间的高相关系数可能与kPCA的过度拟合有关,因为为了获得更高的相关度,通常需要采用高阶的非线性拟合。
文献[9]认为nRSEI因在PC1的占比上高于RSEI而更优,但这一结论也同样缺乏任何根据。文献[19]已经从PCA的机理上深入分析了各主成分分量的作用,并指出在有些研究中占比很低的PC4甚至PC6有时具有更重要的意义,因此占比的高低并不是指标优劣的判别依据。而且文献[9]的这一结论也没有任何证据支持,连最基本的每个主成分分量的特征向量值都没有提供。
3 讨论
上述分析表明,文献[9]的新指数存在着算法论证不充分、精度验证不合理等问题,因此本节就这些问题涉及的遥感科学论文写作的若干基础问题进行讨论。
1) 遥感论文提出的新算法需要充分论证。nRSEI模型提出的依据主要是文献[9]认为4个指标之间的线性关系类型不属强相关,所以如何界定相关强度是新算法是否合理的关键点,必须进行充分论证,不能不经论证地将总体强相关的4个指标关系主观地定为弱相关关系,并以此作为采用kPCA的根据。
2) 新算法需要可行性论证。kPCA的计算量大,且处理非线性关系的核函数经常会造成过度拟合而给出不准确的结果,因此即便是可以采用kPCA,也要对kPCA的可行性进行论证。文献[9]中nRSEI与4个指标间的相关度偏大,就很可能与kPCA的过拟合有关。作者采用kPCA集成的nRSEI无法制成北京全区域影像,而制成全北京影像的mRSEI又只能采用PCA,没有采用kPCA,这可能都与kPCA计算量太大而不可行有关。因此,一个新算法的提出还必须经过可行性论证。
3) 新算法需要普适性验证。nRSEI指数仅用北京影像的2个152×152像元区进行实验,这种基于单一地区的一小块影像提出的算法在国际上通常被称为area-specific或者image-specific,即针对特定地区或特定影像的算法,往往缺乏普适性和可重复性。因此,新算法要在不同的地区和不同的影像上进行实验,以增加普适性,避免偶然性。
4) 模型尺度的一致性。遥感论文中提出的模型如涉及到多指标合成建模时,要避免分辨率明显不同的指标混在一起建模,以免造成分辨率的下降和高分辨率指标数据的丢失。文献[9]建立的EI指数就可能是不同尺度的指标混在一起建模,其中大量的社会经济统计指标即便能够制图,其分辨率也必然很粗,将它们与30 m分辨率的遥感指标混在一起生成的EI影像,必然会造成这些30 m指标影像的分辨率下降,信息量丢失,从而无法作为标准参考影像来对30 m分辨率的RSEI等影像进行验证。
文献[9]提出的另一个指数mRSEI同样也存在尺度问题。mRSEI是在原RSEI的4个指标基础上添加了AOD指标。由于AOD为1 000 m分辨率,与30 m分辨率相差了约1111倍,因此当AOD与其他4个指标合成为mRSEI时,其影像的分辨率必然会大幅下降。图 2以30 m分辨率的Landsat 8影像与1 000 m分辨率的影像集成为例,显示分辨率差异及其造成的信息丢失(最典型的见图 2(b)第3列)。文献[9]还将mRSEI与RSEI进行对比,由于二者分辨率差距巨大,像元间无法逐一准确匹配,据此获得的对比结果显然也缺乏说服力。
图2 30 m分辨率RSEI影像(a)和加入1 000 m分辨率指标后的合成影像(b)
5) 精度验证。算法的精度是遥感科学论文经常需要提供的一项重要指标,没有经过有效验证的算法和结果是不可靠的。
精度验证的参考标准。早期的精度验证采用的是严格的地面实地验证。1999年以来,随着IKONOS等许多高分卫星的相继升空,地面大部分实际情况可以在米级至分米级的高分影像上得以辨析,因此地面精度验证也可以借助高分辨率影像来实现,但是其前提是作为标准参考影像的分辨率必须比待验证影像高。通常采用1 m分辨率影像作为30 m分辨率的Landsat影像的标准参考影像,或者采用至少比待验证影像高4倍分辨率的影像。前已述及,文献[9]使用的由大量社会经济指标生成的EI验证影像的分辨率是不可能比30 m分辨率的RSEI影像高4倍,因此无法与RSEI影像进行点对点的精度验证,导致据此所进行的精度验证无效。另外,将自制的、没有经过精度验证、不能代表地面真实生态状况的数据作为参考标准也是欠妥的。
精度验证的样本量。样本量是保证遥感验证精度的重要前提,太小的样本量不具验证价值,只有足够的样本量才能保证样本指标具有充分的代表性。Richards等总结了多家遥感分类精度验证的样本量要求,认为每类的验证样本量应该在30~60个之间。Jensen基于二项式理论认为,如果期望达到85%的精度(允许偏差值为5%,置信度为95%),则每类的验证样本点数需要204个;如果将允许偏差提升为10%,则每类也需要51个样本。Congalton等基于多项式模型给出了几种不同情况的每类抽样点数,大致介于60~93个。因此,每类60个样本点应该是以上3个方案的共同要求。如果按文献[9]划分的5级(类)生态等级计算,则至少需要300个样本,显然作者采用的16个样本远远没有满足精度验证的样本量要求。
基于影像的精度验证方法。对于RSEI、mRSEI和EI这种影像之间差别的验证,最简便和科学的方法就是采用全影像统计方法,分别统计出待验证影像与标准参考影像的最小值、最大值、均值、中值、标准差等统计特征值,然后通过计算它们之间的差值来进行验证。由于这种验证方法是整幅影像全部像元的统计(北京影像为18229022个30 m像元),因此其结果远比16个样本的验证结果更为准确。
样本的抽样方法。样本的抽样方法直接关系到精度验证结果的客观性。Jensen根据不同的情况划分了多种样本抽样方式,但其核心的共同点就是要求随机抽样。Schober等明确指出,当采用主观而不是随机的抽样方法时,其获得的统计结果是不可靠的。由于文献[9]没有说明其16个样本点的抽样方式,这使得其验证结果失去说服力。
6) 重要结论需有数据支撑。当前国际刊物为了保证稿件数据的真实性,普遍要求投稿时上传原始数据,未能上传则必须说明原因。因此,重要的结论需要有完整的数据支撑,不能仅给出结论而没有数据证明。文献[9]中,许多结论没有提供任何数据,如其§4.4中关于各指标相关度的增减,AOD与4个指标之间的相关性,kPCA变换后各主分量的特征向量值等都没有提供数据证明,使得许多结论缺乏所需的证据。
4 结语
nRSEI指数采用kPCA来集成RSEI指数的4个指标,其依据是这4个指标之间呈弱相关关系。但是本次研究表明这4个指标之间总体呈显著的线性强相关关系,因此采用kPCA的集成方法缺乏足够的根据。从文献[9]中小面积采用kPCA集成、大面积仍采用PCA集成的做法可以看出,基于kPCA提出的nRSEI指数不能应用于大面积范围的生态监测与评价。
mRSEI、nRSEI采用的验证方法不科学,技术不合理,无法证明它们的有效性。所采用的EI验证影像的生成方法不明,分辨率不详,没有经过真实性验证,无法代表真实的地表生态质量状况,因此不能作为验证的标准参考影像。整个验证过程存在着EI影像的指标不可比、各指标尺度不一、样本抽样方法不明、样本数太少、缺乏代表性等问题。而指标与指数间的相关性、PC1的占比等更不能作为精度验证的指标。
遥感模型的提出必须对关键算法的合理性和适宜性进行充分论证,必须对算法进行普适性验证,要避免尺度明显差异的指标混在一起建模,以避免模型的尺度(分辨率)下降、信息丢失。模型要采用科学的方法验证,要科学地选择验证的参考标准,要有足够的样本量以保证样本的代表性,得出的结论要有充分的数据支持。
✦
END
✦
来源:经纬石旁话遥测
https://mp.weixin.qq.com/s/27jakx4PGwhtDAd1gTYoNg
转自:“测绘学术资讯”微信公众号
如有侵权,请联系本站删除!