文章摘要
【关 键 词】 蛋白质设计、Genie 2模型、条件生成、AlphaFold数据库、生物技术
哥伦比亚大学和罗格斯大学联合开发的Genie 2是一款开源的蛋白质预测模型,旨在提升医疗和生物领域研究人员对蛋白质设计效率。Genie 2在原有Genie模型的基础上进行了扩展,增加了蛋白质结构空间的广度和多样性,并引入了多模态能力,使其在预测准确率方面超越了Chroma、FrameFlow和RFDiffusion等现有模型。
Genie 2采用了一种全新的条件生成方法,将每个motif的残基编码为有效向量,并与单个残基特征结合,将条件信息整合到扩散过程中。这种编码方法以SE(3)不变方式编码主题结构,提高了设计的灵活性和鲁棒性。为了捕捉复杂的蛋白质结构分布,研究人员使用了大规模数据增强方法,利用谷歌AlphaFold数据库中的约2.14亿个预测模型,覆盖了UniProt数据库中的所有蛋白质。
在训练过程中,研究人员使用了特定的损失函数,计算预测噪声和真实噪声之间的均方误差,使模型在生成蛋白质结构时更关注满足主题约束条件,同时保持对整体设计的响应性。Genie 2的性能在无条件和条件生成任务中接受了严格测试,结果显示其在设计能力、多样性及创新等关键指标上均超越了其他知名模型。
研究团队设计了一个包含6个多模体支架构建问题的基准集,涵盖了免疫原、结合剂和酶设计等潜在蛋白质设计任务。Genie 2成功解决了其中的4项任务,包括设计包含四个钙离子结合位点的支架和整合RSV-F site II及RSV-G 2D10表位的复杂结构。这一成果为蛋白质设计领域带来了新的突破,有望推动相关生物技术和应用的发展。
原文和模型
【原文链接】 阅读原文 [ 1143字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆