文章摘要
【关 键 词】 化学模型、深度学习、分子预测、预训练策略、性能评估
在化学领域,IBM研究人员开发了一款名为SMI-TED的大模型,专为化学领域设计,拥有2.89亿参数。该模型在PubChem数据库上的9100万个分子数据集上进行预训练,相当于40亿个分子标记,能够自动提取分子特征并预测其性质和行为。SMI-TED的基础架构采用深度双向变压器编码器,有效捕捉标记间的复杂关系和上下文信息,提供准确的标记表示。同时,结合编码器-解码器架构生成SMILES字符串,确保生成的字符串准确反映分子结构和性质。
SMI-TED的深度双向变压器编码器将SMILES字符串中的每个标记映射到高维空间,并通过注意力机制学习标记间的依赖关系,充分考虑前后文信息。编码器-解码器架构在生成SMILES字符串时发挥关键作用,逐步预测每个字符,保证字符串的连贯性和准确性。
为提升SMI-TED性能,研究人员从PubChem数据库中搜集了1.13亿条SMILES字符串作为初始数据集,去重和清洗后得到9100万个独特且有效的分子结构。使用分子标记器构建词汇表,对9100万个分子进行标记化处理,生成包含约40亿个分子标记的词汇表。
SMI-TED采用双阶段预训练策略,先对标记编码器进行预训练,使其学习分子标记的特征和模式,再对整个模型进行预训练,学习分子标记之间的关系和组合成完整分子结构的方式。
在ChEMBL、Tox21、ToxCast、ZINC、QM9等子数据集的综合评测中,SMI-TED表现出优异性能。在ChEMBL数据集中,能准确预测分子活性和性质,误差较小;在Tox21和ToxCast数据集中,对化合物毒性预测表现出色,支持药物安全性评估;在ZINC数据集中,展现出强大的分子生成能力,能生成具有特定性质的新颖分子结构;在QM9数据集中,对分子量子力学性质的预测精度较高,为理解和设计新型材料提供重要参考。
原文和模型
【原文链接】 阅读原文 [ 1342字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆