文章摘要
【关 键 词】 AlphaFold 3、开源复现、蛋白质结构、DeepMind、科学共享
AlphaFold 3,由谷歌DeepMind在2022年5月发布,是一项在生物科学和计算机科学领域具有里程碑意义的成果,被认为具有诺贝尔奖潜力。该技术能够预测蛋白质结构,对药物发现和生物分子工程具有重大意义。尽管DeepMind仅发布了相关论文而未公布代码或模型权重,这一限制激起了科学界的广泛不满,导致多个团队和机构开始尝试复现AlphaFold 3。
Ligo,一家成立不到一年的初创公司,由三位牛津大学本科生创立,率先完成了AlphaFold 3的开源复现工作。他们的复现项目在GitHub上公开,尽管目前只发布了代码,但团队承诺将在训练和基准测试完成后发布权重,并采用Apache 2.0许可证,实现真正的开源。
Ligo团队在复现过程中,将DeepMind发布的模型架构和伪代码翻译为PyTorch代码,这涉及到大量的逆向分析和重构工作。他们发现并解决了原始论文中的一些问题,如MSE损失缩放公式的错误、原DiT中残差层的遗漏,以及MSA模块中无效层的问题。此外,Ligo团队还在探索更快速高效的实现方式,例如重用OpenFold的三角注意力机制。
Ligo的复现工作不仅包括了预测蛋白质结构,还计划在未来扩展到预测药物-蛋白质相互作用结构和核酸-蛋白质复合物结构。他们的模型已经在单链蛋白质上进行了训练,能够完成预测蛋白质结构的任务。
DeepMind的闭源做法引起了科学界的广泛批评,许多科学家认为这不符合科学进步的原则。在公众压力下,DeepMind承诺在6个月内公布模型及权重,但这一承诺并未平息所有批评。Ligo的成功复现,以及其他实验室和机构的努力,展示了科学界对开放科学和共享资源的强烈需求。
Ligo的成就不仅体现了其团队的技术实力,也反映了年轻科学家在推动科学进步方面的潜力。他们的工作为生物科技行业提供了宝贵的资源,有助于加速蛋白质结构的预测和相关研究。随着更多功能的实现和优化,Ligo的复现工作预计将对生物科学领域产生深远影响。
原文和模型
【原文链接】 阅读原文 [ 2055字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★