斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破

AIGC动态2个月前发布 AIera
639 0 0
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破

 

文章摘要


【关 键 词】 基因组模型AI设计多模态零样本CRISPR-Cas

斯坦福和UC伯克利的研究人员开发了一种名为Evo的基因组基础大模型,该模型在AI设计DNA、RNA和蛋白质序列方面取得了颠覆性突破。Evo模型拥有70亿参数,能在单核苷酸分辨率下处理131千碱基的上下文长度,目前已在GitHub开源。Evo经过训练后,在DNA、RNA和蛋白质模态上展现出的零样本功能预测能力,可与特定领域的语言模型相媲美,甚至超越。它还能生成合成CRISPR-Cas分子复合物和转座子系统,展现出在多模态生成任务上的优秀表现。

Evo模型的架构基于深度信号处理技术,结合了29层数据控制卷积算子和三层多头注意力,有效处理长序列。研究人员还发现了DNA的Scaling Law,帮助Evo模型设计,通过分析不同架构的训练、架构细节和性能指标之间的关系,指导训练scaling到更大的模型和数据集。

Evo在预测突变对蛋白质功能的影响方面表现出色,尤其在原核蛋白质的DMS数据集上,零样本性能超过了所有其他核苷酸模型。此外,Evo还能预测突变对ncRNA功能的影响,以及预测调控DNA的活性。Evo的CRISPR-Cas分子复合物生成设计能力得到了验证,它能够生成涉及不同分子模态之间相互作用的功能复合物。Evo还学习了多基因系统的基本模式,如转座子系统,通过微调能够生成具有活性的IS200和IS605样元。

Evo在基因组规模上生成DNA序列的能力也得到了展示,它能够生成长度超过1兆碱基的具有合理基因组架构的DNA序列。这些序列捕捉到了自然原核生物基因组特有的多层基因组特征,尽管存在一些不自然的特征,如缺少高度保守标记基因。

尽管Evo在原核生物数据上训练表现出显著能力,但在预测突变对人类蛋白质适应度的功能影响时能力有限。研究人员展望,Evo有望成为下一代序列搜索算法的基础,将生物工程和设计的范围扩展到整个基因组的尺度。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 5775字 | 24分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...