IBM推出化学大模型：可精准预测分子性质和行为

1,985 0 0

文章摘要

在化学领域，IBM研究人员开发了一款名为SMI-TED的大模型，专为化学领域设计，拥有2.89亿参数。该模型在PubChem数据库上的9100万个分子数据集上进行预训练，相当于40亿个分子标记，能够自动提取分子特征并预测其性质和行为。SMI-TED的基础架构采用深度双向变压器编码器，有效捕捉标记间的复杂关系和上下文信息，提供准确的标记表示。同时，结合编码器-解码器架构生成SMILES字符串，确保生成的字符串准确反映分子结构和性质。

SMI-TED的深度双向变压器编码器将SMILES字符串中的每个标记映射到高维空间，并通过注意力机制学习标记间的依赖关系，充分考虑前后文信息。编码器-解码器架构在生成SMILES字符串时发挥关键作用，逐步预测每个字符，保证字符串的连贯性和准确性。

为提升SMI-TED性能，研究人员从PubChem数据库中搜集了1.13亿条SMILES字符串作为初始数据集，去重和清洗后得到9100万个独特且有效的分子结构。使用分子标记器构建词汇表，对9100万个分子进行标记化处理，生成包含约40亿个分子标记的词汇表。

SMI-TED采用双阶段预训练策略，先对标记编码器进行预训练，使其学习分子标记的特征和模式，再对整个模型进行预训练，学习分子标记之间的关系和组合成完整分子结构的方式。

在ChEMBL、Tox21、ToxCast、ZINC、QM9等子数据集的综合评测中，SMI-TED表现出优异性能。在ChEMBL数据集中，能准确预测分子活性和性质，误差较小；在Tox21和ToxCast数据集中，对化合物毒性预测表现出色，支持药物安全性评估；在ZINC数据集中，展现出强大的分子生成能力，能生成具有特定性质的新颖分子结构；在QM9数据集中，对分子量子力学性质的预测精度较高，为理解和设计新型材料提供重要参考。