模型材料

JCIM中物院化工材料研究所基于图神经网

发布时间:2022/7/11 15:18:34   

晶体密度是影响含能材料爆轰性能的一个内在特性,多数情况下,爆速爆压与密度的平方成正比,准确的密度预测模型对于高密度含能化合物的设计与筛选至关重要。密度预测的传统方法需要借助第一原理计算获得分子描述符(DFT-QSPR),非常耗费计算资源,无法满足从大量候选分子中快速筛选高密度化合物。机器学习(ML)的优势在于可以通过分子结构和性质间的直接映射在几毫秒内做出准确的预测,有望以低的计算成本从数以百万计的候选物中快速筛选含能化合物。

中物院化工材料研究所刘建等人与西南科技大学合作,通过最基本的分子拓朴连接建立了含能化合物密度预测的GNN模型。研究工作分为数据收集、数据处理、模型训练和模型验证四个步骤。首先,从剑桥结构数据库(CSD)CCDC中查找到含有硝基的多个化合物。其次,通过使用包括MaterialsStudio、RDKit和OpenBabel在内的化学信息工具,进行一系列的数据清洗得到满足中性、单一物种、常态测试条件、结构解析完整等条件的多个化合物构成最终数据集。再构建模型并从数据集中选取样本对模型进行拟合与训练。最后,采用独立测试集验证模型的准确性。

密度预测模型的工作流程

该研究采用的GNN模型通过特征提取(I)、特征向量化(III)和模型回归(III)3个步骤实现。在每个纪元跟踪训练集和验证集的MAE、RMSE和R2,以监控模型训练的进程。

基于GNN的密度预测模型,(I)特征提取,(II)特征向量化,(III)神经网络回归

除了GNN,作者还采用了另外三种模型用来作对比,包括DFT-QSPR,支持向机(SVM)和随机森林(RF)。结果表明,4种模型的预测误差排序为SVMRFDFT-QSPRGNN。DFT-QSPR和GNN的预测精度明显优于SVM和RF,且GNN模型的预测精度高于其他模型。

SVM(I),RF(II),DFT-QSPR(Ⅲ)和GNN(IV)的宇称图

根据不同种类的化合物进行准确性评估,涉及的化合物类别包括硝基芳烃、硝基杂芳烃、硝酸盐酯类、硝胺类、高氮化合物、高密度含能化合物(HDECs)等。结果表明,GNN模型的准确性对于六个化合物类别都是有效的,其精度甚至优于耗时的DFT-QSPR方法。

对多种化合物类别的准确性评估

该工作中的GNN模型仅以分子拓扑为输入,通过黑箱建立分子结构与密度之间的直接关系,避免了耗时的计算过程。因此,GNN模型在分子拓扑和含能化合物密度之间的映射上超过了DFT-QSPR模型,不仅精度更高,而且计算资源成本更低,有望加快新型含能化合物的发现速度。

原文:ChunmingYang,JieChen,RunwenWang,MiaoZhang,ChaoyangZhang,andJianLiu.DensityPredictionModelsforEnergeticCompoundsMerelyUsingMolecularTopology.J.Chem.Inf.Model.,DOI:10./acs.jcim.0c.

[在冲击波前沿

转载请注明:http://www.aideyishus.com/lkgx/685.html

------分隔线----------------------------

热点文章

  • 没有热点文章

推荐文章

  • 没有推荐文章