投稿问答最小化  关闭

万维书刊APP下载

Agr. Forest. Meteorol.丨利用机器学习和深度学习方法集成多源数据进行中国水稻产量预测

2023/6/2 16:23:19  阅读:221 发布者:

论文内容

研究背景:

水稻(Oryza sativa L.)是全球最重要的作物之一,占全球人口的50%以上。中国是世界上最大的稻米生产国(年产量约为2.06亿公吨) ,占世界稻米产量的28%。水稻占中国粮食总产量的41%,仅占中国耕地面积的35%,养活了大约65%的中国人。然而,水稻产量近年来一直停滞不前。2006年的水稻总产量比1997年减少了9%(FAO2007)。要确保水稻能够满足预计人口增长的需要,就需要增加水稻产量。到2030年,中国需要增产约20%的大米来满足国内需求。因此,及时、可靠、大规模地估算中国水稻产量,对于决策者制定政府粮食安全发展计划具有重要意义。目前,常见的产量估计方法无外乎传统统计方法、机器学习和深度学习方法。传统的经验回归模型由于其典型的局部化和有限的空间泛化仍然存在许多问题;机器学习(ML)作为“黑箱”,具有处理预测因子与目标变量之间复杂关系的能力;深度学习(DL)具有多个叠加的非线性层,可以将原始输入数据转换为每个叠加层的更高和更抽象的表示。相比传统的基于统计的模型比较,MLDL声称在产量估计的应用效能更优,但是在中国的应用仍处于起步阶段。产量估计离不开作物生长和环境的监测。卫星遥感可以通过各种光谱带直接和及时地监测作物生长状况;而影响作物产量的其他环境因素,如气候变量和土壤特性,包含非生物信息,并且可能不被卫星数据捕获。因此,如何将遥感信息与其他环境因子相结合进行产量估算还有待于进一步研究。

研究内容:

本研究利用卫星资料、气候资料和土壤特性建立了三种基于统计学的方法,包括传统统计方法(LASSO)ML方法(RF)DL方法(LSTM),用于2000-2015年中国水稻产量预测。首先,通过探索性数据分析,选择不同水稻系统应排除的输入变量,并进行时空因子分析,了解产量与输入变量之间的关系。然后,利用LASSORFLSTM对水稻产量进行预测。目标是回答以下三个问题:(i)在不同的水稻系统中,应该选择哪些输入变量来预测水稻产量?(ii)在预测水稻产量方面,最小二乘法和最小二乘法与传统的线性回归比较如何?(iii)哪个卫星植被指数(EVISIFESI)在水稻产量预测技术方面更好?

作者试图提供一种可扩展的、简单的、廉价的方法,利用公开的数据及时准确地预测中国各地的水稻产量。

Fig. 1.中国大陆水稻品种的空间分布

Fig. 2. Visualization of the input data and proposed architectures of LSTM

model. The LST- related variables group include NGDD, HKDD and CKDD;

Climate variables group include Tmin, Tmax, Pre, Pdsi, Pet, Vap, or Vpd; Please

noted that different rice-systems have different input variables.

Fig. 3. The selected key variables for early rice. Note: one(*), double asterisk(**), and threefold asterisks (***) indicate a correlation coefficient (r) with statistical

significance levels of p-value< 0.05, 0.01, and 0.001, respectively. The NGDD, HKDD, CKDD, Pdsi, Pre, and Pet represent normal growing-degree-days (C), hot

killing-degree-days (C), cold killing-degree-days (C), palmer drought severity index, precipitation (mm), and evapotranspiration (mm), respectively. The Vpd, Vap, Tmin, and Tmax refer to vapor pressure deficit (kPa), vapor pressure (kPa), maximum temperatures (C), and minimum temperatures (C), respectively.

Fig.4. The R2 of the three methods using different VIs of inputs for the whole growing season. The error bars are ± 15% of R2 by randomly testing dataset. Note the EVI, SIF and ESI represent Enhanced vegetation index, solar-induced chlorophyll fluorescence, and Combined EVI and SIF, respectively.

Fig.5. Scatter plot of estimated yields by RF and LSTM vs. census yields at county scale for 2015

Fig. 6. Spatial distribution of RMSE for 2015 by RF (a and c) and LSTM (b and d) for single rice and early rice (a and b) and late rice (c and d).

研究结论:

在这项研究中,作者在GEE平台上预处理所有数据(包括气候变量、卫星和土壤特性),然后使用包括一个线性回归、一个ML模型(RF)和一个DL模型(LSTM)在内的三个模型来预测县级作物产量。最后,比较了县级五年产量预测的技巧和推广。总的来说,DLML在县一级的表现都很好。作者研究结果表明,利用可公开获得的数据和GEE平台,可以在区域范围内估算水稻产量,这是一种可扩展、简单和廉价的方法,有可能应用于观测数据稀少的地区和全世界估算作物产量的地区,如非洲。DLML方法能够捕捉作物生长的时空异质性,有望更好地理解气候对农业生产的影响。这里提出的方法可以通过结合作物模型、更详细的耕作管理数据和更高的输入变量(如日尺度的天气和Sentinel 210m分辨率数据)的时空分辨率来进一步改进。DLML可广泛应用于大面积农作物产量预测和灾害评估。

转自:“农科学术圈”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com