英文原题:Automatic Machine Learning Combined with High-Throughput Computational Screening of Hydrophobic Metal–Organic Frameworks for Capture of Methanol and Ethanol from the Air
通讯作者:乔智威, 广州大学;王邦芬,广州大学;梁红,广州大学
作者:Lulu Zhang, Qiuhong Huang, Lifeng Li, Yaling Yan, XueYing Yuan, Hong Liang*, Shuhua Li, Bangfen Wang*, and Zhiwei Qiao*
近日,广州大学化学化工学院乔智威和梁红教授、王邦芬博士团队利用自动机器学习算法结合高通量筛选技术建立了hMOFs结构-性能关系与描述符相对重要性,成功从31399个疏水hMOFs筛选出10个高性能hMOFs捕获空气中微量甲醇、乙醇。
甲醇和乙醇是一种常见的挥发性有机污染物,即使在非常低的浓度下也会对环境及人体健康造成严重的伤害,因此,空气中微量甲醇和乙醇的去除具有十分必要。对于VOCs处理方法,吸附技术因其具有高效、操作简单、低能耗,经济节能和环境友好等优点是一种很有前途的方法。其中吸附剂的选择至关重要,具有高孔体积、高比表面积,可调节的孔隙几何形状和化学功能等优点的金属有机框架(MOFs)展现出了较传统吸附剂的优异性能。但面对庞大的MOFs数据库,为了节约时间和经济成本,研究者们开始尝试引入基于分子模拟的高通量计算筛选(HTCS)辅助机器学习(ML)方法快速从无限多的MOFs材料中有效识别出具有最佳性能的结构。然而,如何准确快速地选取适合MOFs和特定吸附体系的ML算法以及选取合适的超参数是一个挑战。目前基于计算机模拟的研究大量集中在二氧化碳捕获方面,关于利用MOFs去除空气中微量VOCs的相关计算筛选工作相对较少。
为了解决上述问题,广州大学化学化工学院乔智威和梁红教授、王邦芬博士团队通过自动机器学习算法结合高通量筛选技术建立了hMOFs结构-性能关系与描述符相对重要性,成功从31399个疏水hMOFs筛选出10个高性能hMOFs捕获空气中微量甲醇、乙醇。
首先从Wilmer等人的假设性MOFs数据库中选择了31399个疏水hMOFs,目的是为了避免空气中水蒸气对VOCs的竞争性吸附。我们通过高通量筛选和五种机器学习方法(随机森林(RF)、决策树(DT)、支持向量机(SVM)、反向神经网络(BPNN)、自动机器学习算法(TPOT))对31399个疏水hMOFs吸附VOCs—甲醇和乙醇的性能进行了模拟和预测(图1和图2),成功建立了MOFs描述符的重要性和MOFs的结构-性能关系,引入并找到了适合该体系的最佳机器学习模型,即自动机器学习算法TPOT(图3)。
图1. NCH3OH和SCH3OH分别与(a)(b) Q0st和(c)(d) LCD的变化关系
图2. 甲醇TSN的ML模型预测值与GCMC模拟结果的回归关系((a)DT(b)RF(c)SVM(d)BPNN(e)TPOT和(f)TPOT(Randomsearch))
自动机器学习可以自动对数据进行预处理,且算法能够自动确定最合适的模型及其相关超参数,优化性能,同时提高预测结果的可靠性,避免过拟合等问题。TPOT算法具体的运行流程如图3所示,树干代表TPOT算法,由树干生长出的树枝表示TPOT中包含的各操作处理过程,每个树枝上的分叉则代表不同过程涉及的具体计算方法。其中,不同颜色框标记的是我们本工作中所用到的数据预处理(蓝色,归一化)和ML方法(黄色、粉色、绿色和红色分别为DT、RF、SVM和BPNN算法)。分析其模型管道发现了分别在MOFs-甲醇和MOFs-乙醇体系的吸附性能预测准确度最高且出现频率最高的算法或算法组合,分别为梯度提升回归算法(GBR)和随机森林回归(RFR)。进一步说明,TPOT可以自动确定并给出适合不同数据集的最佳ML模型。因此,相比单独使用某一种ML算法,TPOT确定的ML管道模型具有更好的预测效果。
图3. TPOT算法流程示意图
根据最优TPOP机器学习算法建立的MOFs的结构-性能关系,最终筛选出10个优异hMOFs (0.002 mol/kg ≧ NCH3OH ≧ 0.001 mol/kg, 420.67 ≧ SCH3OH ≧ 214.29) and ethanol (0.068 mol/kg ≧ NC2H5OH ≧ 0.016 mol/kg, 3.2×106 ≧ SC2H5OH ≧ 8.5×103)。最后,通过Top 10 hMOFs吸附甲醇、乙醇位点和结构共性的分析发现,甲醇和乙醇分子主要吸附位点在氨基(-NH2)和卤素基团(如-F, -Cl和-Br)附近,而导致吸附性能差异的主要原因则是金属中心的不同(图4)。
图4. TOP 30 MOFs中不同金属中心、拓扑及其组合的数量
相关论文发表在ACS ES&T Engineering上,广州大学硕士研究生张璐璐为文章的第一作者,广州大学乔智威和梁红教授、王邦芬博士为共同通讯作者。
转自:“ACS美国化学会”微信公众号
如有侵权,请联系本站删除!