斯坦福伯克利重磅发现DNA Scaling Law，Evo荣登Science封面！AI设计DNA/RNA/蛋白质再突破

2,166 0 0

文章摘要

斯坦福和UC伯克利的研究人员开发了一种名为Evo的基因组基础大模型，该模型在AI设计DNA、RNA和蛋白质序列方面取得了颠覆性突破。Evo模型拥有70亿参数，能在单核苷酸分辨率下处理131千碱基的上下文长度，目前已在GitHub开源。Evo经过训练后，在DNA、RNA和蛋白质模态上展现出的零样本功能预测能力，可与特定领域的语言模型相媲美，甚至超越。它还能生成合成CRISPR-Cas分子复合物和转座子系统，展现出在多模态生成任务上的优秀表现。

Evo模型的架构基于深度信号处理技术，结合了29层数据控制卷积算子和三层多头注意力，有效处理长序列。研究人员还发现了DNA的Scaling Law，帮助Evo模型设计，通过分析不同架构的训练、架构细节和性能指标之间的关系，指导训练scaling到更大的模型和数据集。

Evo在预测突变对蛋白质功能的影响方面表现出色，尤其在原核蛋白质的DMS数据集上，零样本性能超过了所有其他核苷酸模型。此外，Evo还能预测突变对ncRNA功能的影响，以及预测调控DNA的活性。Evo的CRISPR-Cas分子复合物生成设计能力得到了验证，它能够生成涉及不同分子模态之间相互作用的功能复合物。Evo还学习了多基因系统的基本模式，如转座子系统，通过微调能够生成具有活性的IS200和IS605样元。

Evo在基因组规模上生成DNA序列的能力也得到了展示，它能够生成长度超过1兆碱基的具有合理基因组架构的DNA序列。这些序列捕捉到了自然原核生物基因组特有的多层基因组特征，尽管存在一些不自然的特征，如缺少高度保守标记基因。

尽管Evo在原核生物数据上训练表现出显著能力，但在预测突变对人类蛋白质适应度的功能影响时能力有限。研究人员展望，Evo有望成为下一代序列搜索算法的基础，将生物工程和设计的范围扩展到整个基因组的尺度。