模型材料

机器学习辅助分子晶体特性预测,新材料发现

发布时间:2023/12/3 1:42:40   

长期以来,化学家的目标是想象新分子的化学结构,并能够预测它在所需应用中的作用。然而,在实践中,这个愿景很难实现,通常需要大量的实验室工作来合成、分离、纯化和表征新设计的分子,以获得所需信息。

最近,劳伦斯·利弗莫尔国家实验室(LLNL)的研究团队通过创建机器学习(ML)模型,可以仅从分子的化学结构(如分子密度)预测分子的晶体特性,从而实现了这一愿景。预测晶体结构描述符(而不是整个晶体结构)提供了一种推断材料特性的有效方法,从而加快了材料的设计和发现。

该研究于4.26以题为「」发表在《化学信息与建模杂志》()上。

新分子化合物的发现是一个劳动密集型且成本高昂的「爱迪生式」过程。几十年来,人们一直希望能够仅从化学结构和合成之前预测分子化合物的整体结晶特性,以减少新化合物的开发时间。然而,这个目标仍难以实现。

此前,虽然有多种ML方法可用于预测分子级特性,包括能级和亲脂性,但使用ML方法来预测分子化合物的结晶特性的探索较少。

ML模型精度高、速度快

现在,研究人员证明了ML方法可用于直接学习分子化合物的化学结构与晶体特性之间的关系,并在没有晶体结构信息的情况下进行预测。

该研究集中在预测一类称为高能炸药(highexplosives,HE)的高能材料的晶体密度上,因为分子HE的密度与爆速直接相关,这是评估分子HE候选物时的重要性能指标。此外,新HE的开发和测试是特别危险的工作,如果及早确定优先级并将待合成和研究的样品最小化,将特别受益。

目前获得密度近似值的最佳方法是通过基于量子力学的密度泛函理论(DFT)计算。然而,迄今为止发表的方法仍然没有提供准确的预测。

「与之前基于ML的方法相比,我们最杰出的ML模型之一能够更准确地预测高能和类高能分子的晶体密度。」LLNL应用数学家、论文的共同第一作者PhanNguyen说。

LLNL计算机科学家、共同第一作者DonaldLoveland表示:「与DFT相比,ML模型在计算精度上更具竞争力,同时所需的计算时间也很短。」

MPNN模型性能最佳

使用已发表的晶体密度HE相关数据集和几种密度回归模型:随机森林(RF)、偏最小二乘回归(PSLR)、消息传播神经网络(MPNN)和支持向量回归(SVR),评估了各种特征组合和方法的拟合优度,以预测剑桥结构数据库(CambridgeStructuralDatabase,CSD)中HE相关分子的密度。

研究表明,使用带有RF、PLSR和MPNN的RDKit的方法比基线E3FP/SVR方法的性能更好,并产生接近真实密度值的密度预测。基于消息传播神经网络(MPNN)的模型的性能表现最佳,其R2值为0.,在预测结晶密度方面优于当前最先进的方法。尽管像MPNN这样的基于神经网络的方法有其自身的缺点(即它们的计算成本高,模型复杂性阻碍了人类的可解释性),但当适当的手工特征尚未开发或识别时,此类方法可能特别适用。

加速新材料发现和优化

LLNL的高爆应用设施(HEAF)的成员已经开始利用该模型的网络界面,旨在发现新的不敏感的高能材料。通过简单地输入分子的2D化学结构,HEAF化学家能够快速确定这些分子的预测结晶密度,这与潜在的能量性能指标密切相关。

「我们很高兴看到我们的工作成果应用于实验室的重要任务。这项工作必将有助于加速新材料的发现和优化,」LLNL材料科学家、该项目首席研究员YongHan说。

材料科学部门的后续工作将ML模型与生成模型结合使用,快速有效地搜索大型化学空间,以寻找高密度候选物。

该团队将继续寻找实验室感兴趣的新特性,其愿景是为材料科学家提供一套用于研究的预测模型。



转载请注明:http://www.aideyishus.com/lkcf/5863.html
------分隔线----------------------------