原文信息:
Dalla Longa, F., Sweerts, B., & van der Zwaan, B. (2021). Exploring the complex origins of energy poverty in The Netherlands with machine learning. Energy Policy, 156, 112373.
一、引言
在能源危机与严冬寒潮的双重夹击中,不少欧洲家庭由于难以应对高昂的燃气费和电费账单,进而选择燃木取暖,而木材价格也随之一路飙升。这又一次将能源贫困问题摆到了面前。能源贫困问题由来已久,过往文献认为发展中国家的能源贫困问题通常是因为缺乏获取现代能源设施的途径,而发达国家的能源贫困问题是由于部分家庭无力支付能源费用,但Longa et al. (2021) 认为能源贫困受一系列社会经济因素的影响,有着更为复杂的根源。
因此,作者建立了能源贫困风险的分析框架,并且应用机器学习中的梯度提升决策树模型 (gradient boosting decision tree model) 来评估各个因素对能源贫困的预测能力。过去关于社会经济变量和能源贫困风险的研究大多使用传统回归模型。与此相比,作者认为机器学习模型有以下明显的优势。
首先,机器学习可以处理大规模数据,尤其是那些传统回归分析难以处理的数据特征。其次,为了研究变量之间可能存在的相关性,传统的回归方法通常需要预先做出假设,而机器学习模型不需要类似的假设,因为相关性可以从训练好的模型分析中自然产生。最后,机器学习模型能够更好地处理能源贫困问题中的非线性关系,而传统回归方法往往更适合研究线性问题。
二、研究方法
作者采用了荷兰的KWB和WoON数据集,本文主要介绍KWB数据集的分析过程,WoON数据集的分析和结果与此类似。作者计算了各个区域的人均电力和天然气的年消费量,通过乘以平均能源价格得出年平均能源支出。作者使用最低收入水平和能源支出分布的第80分位数作为阈值,将能源支出比重和人均年收入的散点图划分为四个象限,分别对应无风险、支出风险、收入风险和双重风险四种类型,其中数据点落在双重风险区的比例为3.5%。
图1. 能源贫困风险的类型
基于数据可得性和关联性,作者从KWB数据集中选择了五个关键变量,分别是平均房屋价值、人口密度、平均家庭规模、租赁房屋占比和新房(2000年后)占比。作者采用散点图上色的方式,将能源贫困风险类型与五个变量的关系可视化。根据图2中不同颜色数据点的分布趋势,论文发现房屋价值与人均收入存在相关性,人口稀疏地区的能源支出比重较高。此外,其他变量的结果显示家庭规模与人均收入没有显著关联,房屋租赁比例高的地区往往伴随着低收入水平和低能源支出比重,新房比例高的地区则伴随着中高收入水平和低能源支出比重。
图2. 能源贫困风险与社会经济变量
(以平均房屋价值和人口密度为例)
为了进一步研究各个变量对能源贫困风险的预测能力,作者采用了机器学习中的梯度提升决策树模型GBDT,并使用了XGBoost算法。GBDT模型基于Boosting的集成策略,通过不断拟合来降低预测值与真实值的残差,其评估结果表现为混淆矩阵 (confusion matrix)。如图3所示,论文将测试集中每个数据点的真实值与机器学习算法的预测值进行比较,并计算预测正确和错误的份额。混淆矩阵的对角线定义为正,即正确预测的份额,除对角线外的其他区域定义为负,进而基于正负性计算得出模型预测的准确率。
图3. 混淆矩阵与预测结果(以模型C为例)
模型A只考虑收入,模型B考虑上述五个社会经济变量,而模型C同时考虑收入和五个变量。结果显示,训练集中模型B的总体预测准确率显著高于模型A (76% vs 63%),而两者在测试集中的区别不大 (61% vs 62%)。模型C在训练集和测试集中的准确性都得到了显著提升 (88% & 77%)。作者进一步评估了模型B和C中其他变量的重要性。具体方法是将每个变量添加到决策树,测量所带来的f1值的改善。结果显示在不考虑收入的模型B中,平均房屋价值带来了最高增益,这可能是由于平均房屋价值与收入高度相关。而在模型C中,收入依然是最重要的因素,而平均房屋价值的增益相对较低。在两个模型中,人口密度都是第二重要的因素。
三、结论
综上所述,论文建立了基于收入和能源支出的能源贫困风险分析框架,通过使用机器学习的梯度提升决策树算法,根据一组选定的社会经济变量来预测能源贫困的风险。研究结果确认了收入是能源贫困最重要的预测因素,而其他社会经济变量,例如房屋价值,对于提高预测的准确性和可靠性也是必不可少的。敏感性分析的结果显示阈值划分的变化不会显著影响机器学习模型的预测能力。文章表明机器学习可以作为监测能源贫困的有效手段,辅助制定和实施相应的政策措施。需要注意的是,机器学习的结果依然是统计层面的,这意味着统计异常或非典型案例可能在分析中被遗漏或“扁平化”,例如隐性能源贫困问题。因此,机器学习如果要在未来成功地用于监测和识别贫困问题,则依然面临诸多挑战。
Abstract
Energy poverty is receiving increased attention in developed countries like the Netherlands. Although it only affects a relatively small share of the population, it constitutes a stern challenge that is hard to quantify and monitor, hence difficult to effectively tackle through adequate policy measures. In this paper we introduce a framework to categorize energy poverty risk based on income and energy expenditure. We propose the use of a machine learning classifier to predict energy poverty risk from a broad set of socio-economic parameters: house value, ownership and age, household size, and average population density. While income remains the single most important predictor, we find that the inclusion of these additional socio-economic features is indispensable in order to achieve high prediction reliability. This result forms an indication of the complex nature of the mechanisms underlying energy poverty. Our findings are valid at different geographical scales, i.e. both for single households and for entire neighborhoods. Extensive sensitivity analysis shows that our results are independent of the precise position of risk category boundaries. The outcomes of our study indicate that machine learning could be used as an effective means to monitor energy poverty, and assist the design and implementation of appropriate policy measures.
转自:“香樟经济学术圈”微信公众号
如有侵权,请联系本站删除!