Big Data in Earth system science and progress towards a digital twin
Abstract
The concept of a digital twin of Earth envisages the convergence of Big Earth Data with physics-based models in an interactive computational framework that enables monitoring and prediction of environmental and social perturbations for use in sustainable governance. Although computational advances are rapidly progressing, digital twins of Earth have not yet been produced. In this Review, we summarize the methodological and cyberinfrastructure advances in Big Data that have advanced the progress towards a digital Earth twin. Data assimilation provides the framework for incorporation of high-resolution observations into Earth system models but lacks the decision-making interface and learning ability needed for the digital twin. Machine learning (and particularly deep learning) in Earth system science is now more capable of reaching the high dimensionality, complexity and nonlinearity of real-life Earth systems and is expanding the learning ability from Big Data. Progress in causal inference and reinforcement learning are, respectively, increasing the interpretability of Big Data and the ability of simulations to solve sequential decision-making problems. Social sensing data could provide inputs for multiagent deep reinforcement learning via feedback loops between agents and the environment, enabling large-scale applications in human system modelling. Future research must focus on finding the optimal way to integrate these individual methodologies to achieve digital twins.
数字孪生地球的概念设想将地球大数据与基于物理的模型在一个交互式计算框架中融合,从而实现对环境和社会扰动的监测和预测,为可持续治理提供支持。尽管计算技术的进步正在迅速推进,但数字孪生地球尚未实现。在本综述中,我们总结了大数据方法和网络基础设施的进展,这些进展推动了数字孪生地球的进步。数据同化提供了将高分辨率观测数据纳入地球系统模型的框架,但缺乏数字孪生所需的决策接口和学习能力。机器学习(特别是深度学习)在地球系统科学中的应用已经能够应对现实生活中地球系统的高维度、复杂性和非线性特征,并且正在扩大从大数据中学习的能力。因果推理和强化学习的进展,分别提高了大数据的可解释性和模拟解决序列决策问题的能力。社会感知数据可通过代理和环境之间的反馈循环为多智能体深度强化学习提供输入,从而实现在人类系统建模中的大规模应用。未来的研究必须专注于找到将这些个体方法融合在一起以实现数字孪生的最佳方式。
地球大数据(Big Earth Data)。“大数据”一词最初是为了捕捉大容量数据集的规模和种类而引出,此外还有处理、组织、政策和处理大量数据的挑战,由此,“地球大数据”一词被提出来,以涵盖与地球系统有关的所有数据。地球大数据涉及广泛的数据源,可分为以下几类:
遥感数据:从卫星、机载、无人机和地面仪器获得的观测数据,提供对地球系统时空变化的测量。到2020年,累计的遥感数据量约为1.3EB,随着新卫星的发射以及观测波段能力和时空分辨率的扩大,这一数字将不断增加。例如,气象卫星Himawari-8以每分钟一次的频率观测,每年产生约100TB的数据,大约是上一代卫星(Himawari-6和-7)产生的数据量的25倍。
原位观测和实验室分析:包括从观测站、网络、实验室分析、调查、考察、野外实验等收集的数据。由于这些类型的样本通常是在靠近观测对象的地方采集的,因此可以获得对观测对象的实时保真测量,但限制于大区域的空间代表性和差异性。网络站点,如中国的颗粒物(PM)2.5站点、FluxNet2和eLTER,可以使各地区收集足够的观测数据成为可能。在前沿的物联网和传感器技术的支持下,随着时间的推移,部署大量的原位传感器和建立实时数据传输已经变得更加实用。
社会感知数据:泛指与人类活动有关的数据。社会感知数据正在迅速积累,现在占目前产生的所有数据的四分之三。这类数据高度多样化,涵盖人类行为、人口、经济和其他方面。社会感知数据的分析正受益于文本挖掘和深度学习的进步,这在地球科学中引起了越来越多的关注,特别是为了更好地理解人类与环境的交互。
模拟和再分析数据:地球系统及其相互作用的模拟和再分析(数据同化)产生的数据。已经开发了基于计算机的物理和理论模型来模拟地球的不同部分(例如,大气、海洋、深地、陆表和冰冻圈),并将其耦合在一起进行综合模拟,如Coupled Model Intercomparison Project(CMIP)和Copernicus services,为地球系统模拟提供基本信息。这些模型的时间和空间分辨率的提高,导致了数据量的迅速增加。例如,在CMIP6活动中,已经公布了超过560万个数据集,大小超过21.9PB。此外,最先进的数值模式与来自不同来源的数据观测的同化,产生了具有长时间记录的再分析数据集,并在空间和时间上具有高度一致性。
每一类数据都能从不同的方面了解地球系统,但每一类数据在数据质量和覆盖范围方面都有局限性。整合这些类别的各种数据集可以为地球系统提供更多的时空和物理上的一致性表述。
地球系统科学中数据使用的转变。物理世界的观测数据在快速改进的网络基础设施的支持下进行处理。数据使用阶段正在从数据超市过渡到数据图书馆、数据实验室,并最终走向数字孪生地球。地球大数据和社会感知数据被同化为基于过程的数据。
大数据同化到超高分辨率模型。a,观测数据同化到超高分辨率模型中,如地球系统模型。数据同化策略结合了传统数据同化方法和机器学习算法的优势。大数据同化(BDA)的密集计算需要超级计算基础设施。b,传统模型的1公里分辨率的降水同化结果(中)与100米分辨率的BDA结果(右)的比较,后者是将相控阵气象雷达观测数据(左边)同化到数值天气模型中得到的。dbZ是雷达反射率的量度。c,将智能手机的压力观测数据(一种非主流数据)同化到高分辨率降雨预报模型中。使用气象服务雷达观测数据估计的降雨量(左)可以与同化了传统的地面无线电探空观测数据(中)和350个智能手机压力观测数据(右)预测估计的降雨量进行比较,后者是BDA的一个实例。实例研究表明,BDA的性能优于传统的数据同化方法,有助于地球系统科学的预测和分析。
地球系统科学中深度学习、基于的物理信息的机器学习、因果推理和强化学习之间的相互作用。深度学习比传统的神经网络使用更多的层,从数据中挖掘更深更抽象的特征,提高模型的学习能力。基于的物理信息的机器学习结合了物理约束,来提高模型的可移植性。因果推理将变量之间的因果关系集成到机器学习模型中,以提高可解释性。深度强化学习执行代理(人类系统)和环境(自然系统)之间的相互作用,以改善地球系统模型在决策方面的应用。这四种前沿方法将相互补充,帮助产生数字孪生地球。
大数据在地球系统科学中应用的巨大挑战。数据、分析和网络基础设施方面的进步为克服人类与自然系统之间的联系、探索深空和时间以及发展开放共享的数据文化方面的挑战提供了机会。克服这些挑战将推动地球科学从主要是计算和数据密集型的研究到实现地球系统科学的人工智能(AI)。具体来说,原位观测、遥感、再分析和社会感知的进展有助于实现地球系统的泛在感知。机器学习、深度学习、基于物理信息的机器学习(ML)和其他分析方法的进步为人工智能科学家有了更多的可能性。网络基础设施的快速发展已经经历了数据超市、数据图书馆和数据实验室的阶段,正朝着数字孪生地球迈进。
Reference
Li, X., M. Feng, Y. Ran, Y. Su, F. Liu, C. Huang, H. Shen, Q. Xiao, J. Su, S. Yuan, and H. Guo (2023), Big Data in Earth system science and progress towards a digital twin, Nature Reviews Earth & Environment. https://doi.org/10.1038/s43017-023-00409-w
本文转载自微信公众号地学科研动态
转自:“科研圈内人”微信公众号
如有侵权,请联系本站删除!