该成果发表在期刊 Geoscience Frontiers 上,详情见 :Wang H, Zhang L, Yin K, et al. Landslide identification using machine learning[J]. Geoscience Frontiers, 2021, 12(1): 351-364.
原文链接:https://doi.org/10.1016/j.gsf.2020.02.012
【研究概述】
滑坡识别在滑坡风险评估和管理中发挥着重要作用(Guzzetti等,2012;张等,2012;陈等,2016;奈度等,2018)。随着遥感技术的出现,可以通过遥感图像和地形表面的目视解译来识别滑坡(Haneberg等人,2009;徐,2015)。视觉判读虽然具有较高的识别精度,但过程耗时耗力。因此,近年来,基于遥感技术进行滑坡识别的自动化或半自动化方法备受追捧。目前的滑坡识别研究主要基于基于像素或面向对象的光学图像,数字地形模型(digitalterrainmodel,DTM)常被用作辅助数据(Guzzettietal.,2012)。Barlow等人(2003)将光学图像和数字高程模型(DEM)衍生物结合使用面向对象的方法来识别平移滑坡疤痕。Mckean和Roering(2004)构建了高分辨率的dem,并使用它们的导数来识别新西兰基督城附近的基岩滑坡。Marthaetal.(2010)使用光谱、形状和上下文信息的组合来识别滑坡,并进一步使用多时相图像来识别历史滑坡(Marthaetal.,2012),两者都是基于面向对象的方法。Keyportetal.(2018)利用非常高分辨率的图像进一步研究了基于像素和面向对象的滑坡识别方法的可行性。机器学习和深度学习技术已被证明是许多岩土工程应用中强大而有前途的工具(Zhang等人,2015;Lary等人,2016;张andGoh,2016;Papaioannou和Straub,2017;Ching和Phoon,2018;李金辉等人,2018,2019;LoandLeung,2019)以及在滑坡识别中的应用。Moosavi等人(2014)将人工神经网络(ANN)和支持向量机(SVM)实现的基于像素的方法与面向对象的方法在生成滑坡清单方面进行了比较。VanDenEeckhaut等人(2012)使用数据分割和SVM来识别具有DTM衍生物的森林滑坡。李金辉等(2015)利用随机森林(RF)和SVM,基于面向对象方法,利用DTM衍生物对三峡地区森林滑坡进行识别。Ding等人(2016)利用CNN和纹理变化检测,在滑坡前后的光学图像中尝试自动识别滑坡。Ghorbanzadeh等人(2019)利用光学图像和DEM衍生物评估了ANN、SVM、RF和卷积神经网络(CNN)在尼泊尔Rasuwa地区检测滑坡区的性能。尽管人们已经努力开发高效的滑坡识别方法,但将机器学习和深度学习应用于滑坡识别仍有几个问题有待解决:(1)目前的研究主要集中在利用现有的光学图像识别滑坡。对残存滑坡的识别研究还很少。(2)文献更多关注识别过程本身;不同滑坡类型对识别性能的影响尚不明确。(3)文献对光学遥感影像进行滑坡识别的依赖程度较高。最新的高分辨率DTM可以精确捕捉细微的地形差异;然而,使用机器学习和深度学习的dtm主导的滑坡识别的潜力尚未得到开发。本文的主要目的是提出一种综合的滑坡识别方法,该方法能够利用机器学习和深度学习从DTM中识别遗留的和最近的滑坡。采用基于分块的数据提取方法建立不同类型的滑坡数据库。在每个数据库上,训练并比较基于LR、SVM、RF、boosting和CNN的各种机器学习和深度学习模型,以评估其性能。本研究以大屿山为例,利用“近期山体滑坡数据库”、“遗留山体滑坡数据库”和“联合山体滑坡数据库”来验证建议的方法。
在本研究中,采用机器学习和深度学习技术(1)评估所提出的基于机器学习和深度学习的方法用于滑坡识别的性能,(2)研究所提出的方法在应用于识别不同类型的滑坡时的性能。总体方法论在图1中进行了总结。
图1 提出的基于机器学习的滑坡识别方法
【研究区域】
如图2所示,研究范围涵盖整个大屿山。大屿山总面积约147公里2,是位于香港西南部最大的离岛。由于地形陡峭,海边附近只有少量平地。由于人类活动的不活跃,大屿山周围的自然环境相对完整。在图3中,大屿山的主要基岩为风化的火山岩和花岗质岩石,通常覆盖着较年轻的冲积和崩积物质。最古老的岩石是砂岩和粉砂岩,这些沉积岩通常露头较小。混交林生长在山坡脚下,而茂密的灌木和杂草则生长在斜坡中部。基岩的露头通常出现在峰顶或坡角大于40的地区。该地区属亚热带季风气候,冬季温暖干燥,夏季炎热潮湿。大屿山经常受到高强度风暴和台风的影响,是滑坡易发地区(图4),具有很高的滑坡研究科学价值。
图2 研究区域的位置
图3 研究区简化地质图
图4 大屿山西南部昂贡路附近的山泥倾泻
【数据】
土工署(GEO,1996年)建立了一份滑坡清单“自然地形滑坡清单(ENTLI)”;茂塞尔-辉固合资企业与GEO,2007年)。ENTLI包含了研究区1924年至2009年的近期和遗留滑坡记录,滑坡的空间分布如图5所示。表1总结了研究区域的滑坡库存量。近期发生滑坡5810起,遗留滑坡20884起。最近的滑坡是通过航拍照片的目视解译识别出来的,分为三种:通道型滑坡、露天山坡型滑坡和沿海型滑坡。而发生时间早于现有航拍照片时间尺度的残余滑坡则根据API和地形特征进行识别,并分为A类、B类或C类,具有不同的判读置信度。与最近发生的滑坡类似,沿海滑坡也有一个独立的类别。如方法学所述,基于ENTLI数据形成了三个滑坡清单;即:《遗留滑坡清单》(RelLI)、《近期滑坡清单》(rei)和《联合滑坡清单》(JLI)。除了滑坡清单外,本案例还准备了DTM、地表地质和降雨相关数据。表2总结了该案例研究的7个预测因子。这些预测因子被分为三类:(1)地形预测因子:高程(图6a)、坡向(图6b)、曲率(图6c)、地形湿度指数(TWI)(图6d)和坡度(图6e);(2)地质预报:浅层地质(图6f);和(3)降雨相关预报:24小时步长地形强化因子(SDOIF)(图6g)。首先,利用研究区栅格单元尺寸为2m*2m的高分辨率DTM,利用GIS导出数据层。具体来说,利用地形表面的数字高程,为每个单元计算三个广泛使用的坡度特征(即坡度梯度、曲率和坡向)。同时,计算考虑地形表面水文流道的水文参数TWI:
其中a为每单位等高线长度通过某一点排水的局部上坡区域,tanb为局部坡度。其次,研究区域的浅层地质图是从香港地质调查局的1:20000地质图中提取出来的。如图6f所示,共有7种地表岩土材料(即侏罗纪花岗岩;侏罗纪砂岩、粉砂岩和泥岩;侏罗纪凝灰岩和熔岩;白垩纪花岗岩;白垩纪凝灰岩和熔岩;第四纪沉积物;和填充物)分布在研究区地形表面。值得注意的是,对于非第四纪矿床和非充填区,岩石矿物在浅层表面通常受到强烈的风化作用。由于岩性是一个分类变量,因此应用虚拟变量方法。具体来说,进行如下处理:对于研究区域内的每个单元j;
其中,7种地质体类型对应7种表面化地质体。此外,本研究还纳入了一个称为SDOIF的因子,以考虑地形放大对降雨的影响。基于区域降水资料,给定小区j在t时段的SDOIF可通过以下方法计算:
其中ft(j)为单元格j随时间t的平均SDOIF,rt(j)为包含地形影响的单元格j总降雨量,r0,t(j)为不受地形影响的降雨量。SDOIF数据提取自AECOM和Lin(2015),分辨率为5km*5km;然后使用克里格法推导整个研究区域的SDOIF数据层,结果如图6g所示。
图5 ENTLI新近和残余滑坡在研究区的阴影地形图上的空间分布
图6 多数据层:(a)高程;(b)方面;(c)曲率;(d)双胞胎;(e)坡度梯度;(f)浅层地质;(g)SDOIF;和(h)所有层堆叠
表1 研究区内26,694个自然地形滑坡强化清单(ENTLI)总结
表2 预测因子汇总
【模型评估和分析结果】
从滑坡识别结果和预测因子重要性排序(表3-6和图7-9)中可以发现一些有趣的规律和现象:
(1)在三个数据库中,由于CNN在特征提取和多维数据处理方面的优势,在所有准确率指标(即accuracy、F1、MCC和OA)上,CNN在测试集上的准确率都是最高的,其次是增强方法RF和LR。三种boosting方法之间没有观察到显著的性能差异。然而,考虑到集成学习的好处,所有的boosting方法都能得到令人满意的结果。LR是应用最广泛的机器学习算法之一,平均准确率在80%以上,是所有算法中最简单的,被认为是相当好的本研究中的算法。性能最差的是SVM,准确率低于80%。由于本案例研究中的模型是用典型配置训练的,因此本案例研究中的模型性能排名并不一定适用于其他案例研究或不同的模型设置。然而,所提出的滑坡识别方法的突出性能已经得到验证,该案例研究可以作为未来滑坡识别研究的基准。
(2)训练集和测试集在精度上的差异可以表明一个模型是否过度拟合。如果差异很大,并且在训练集上的准确率非常高,则认为该模型过拟合。在8种机器学习和深度学习模型中,RF出现过拟合的几率最高,其次是boosting方法。相反,当一个模型不够复杂,无法精确捕捉预测器和响应之间的关系时,就会发生欠拟合,通常会导致训练集和测试集上的精度都很低。SVM比其他模型更容易出现欠拟合,其次是LR。尽管过拟合和欠拟合都可以通过各种方法解决,但本案例研究不会进行进一步的调优,因为其目的是提供对所提出方法的整体评估。
(3)在三个数据库中,RecLD上训练的机器学习和深度学习模型的平均性能最高,JLD上训练的机器学习和深度学习模型次之。最低的是那些接受过RelLD训练的人。这一结果是合理的,因为ENTLI地区的滑坡解译结果并不完全准确,可能会给数据库带来一定的噪声。
(4)从ARPI结果来看,坡度、坡向、曲率和TWI是最重要的预测因子。
(5)在整个研究区域上,RecLD训练的模型面积精度最高,其次是JLD和RelLD。这一排名与之前描述的平均模型性能一致。此外,还有一个有趣的现象,即RecLD和JLD的面积精度高于相应的DCNN-11测试集精度。这主要是因为两个数据库的DCNN-11模型的特异性高于精度(表3和表5),表明这两个模型在识别非滑坡区域方面更强大。由于研究区域大部分为非滑坡区,采用RecLD和JLD训练的DCNN-11模型往往具有较高的区域精度。
(6)以最近滑坡数据库(RecLD)为例,训练样本数量为8086个,占地面积为3.91km2,而整个大屿山占地面积为147.16km2。
表3 八种机器学习和深度学习模型在RecLD上的性能比较
表4 八种机器学习和深度学习模型在RelLD上的性能比较
表5 八种机器学习和深度学习模型在JLD上的性能比较
表6 基于三种Boosting方法训练的模型的ARPI结果
图7 基于RecLD的机器学习结果:(a)使用DCNN-11预测最近的山体滑坡;(b)ENTLI最近的山体滑坡
图8 基于RelLD的机器学习结果:(a)使用DCNN-11预测残余滑坡;(b)ENTLI的残余滑坡
在训练过程中只使用了2.66%的面积信息,而该方法能够给出92.47%的整体面积准确率。鉴于此,所提方法的普遍适用性和适应性在案例研究中被证明是有希望的。
【结论】
本文提出了一种基于机器学习和深度学习的滑坡识别集成方法。以香港大屿山为例,结合多个滑坡数据库,对所提出的方法进行了说明和验证。可以得出以下结论:
(1)在8个机器学习和深度学习模型(LR、SVM、RF、DiscreteAdaBoost、LogitBoost、GentleAdaBoost、CNN-6和DCNN-11)中,DCNN-11是最有希望解决滑坡识别问题的模型。
(2)在RecLD、RelLD和JLD3个滑坡数据库中,RecLD模型的平均识别准确率最高,DCNN-11模型的识别准确率为89.3%。在JLD和ReclLD上训练的最高准确率分别为87.5%和86.4%。
(3)坡度、坡向、曲率和TWI比其他3个预测因子(高程、地表地质和SDOIF)更重要。
(4)DCNN-11在RecLD训练下的区域识别准确率高达92.5%,JLD训练时为88.6%,RelLD训练时为86.3%。这表明所提出的滑坡识别方法具有显著的性能和鲁棒性。
图9 基于JLD的机器学习结果:(a)使用DCNN-11预测滑坡;(b)ENTLI中的滑坡
来源:复合链生自然灾害
转自:“测绘学术资讯”微信公众号
如有侵权,请联系本站删除!