AI 蛋白质夺诺奖,清华聂再清:大模型解码生物语言 | 智者访谈
文章摘要
【关 键 词】 AI药物研发、自然语言处理、生物医药数据、分子表示学习、ChatDD应用
2024年诺贝尔化学奖的颁发,凸显了人工智能在生物医药领域的重要作用,预示着AI技术在该领域的广泛应用前景。尽管AI在药物研发中展现出潜力,但行业仍面临长周期、高成本、低成功率的挑战。清华大学聂再清教授在《智者访谈》中分享了其团队在自然语言处理技术应用于生物医药数据分析的创新实践,旨在构建生物医药领域的基座大模型,建立生物语言与自然语言间的桥梁。
聂教授及其团队的目标是打造一个智能助手,整合领域内的数据、知识和工具,通过自然语言与人类专家交互,提升药物研发效率与成功率。他们研发的对话式药物研发助手ChatDD,允许用户通过自然语言进行智能搜索、工具调用和指令输入,优化生物语言如蛋白质结构。聂教授认为,相较于单纯研发AI药物模型,这种模式具有更高的商业可行性。
在生物医药领域,聂教授的团队面临多尺度建模与融合的挑战,他们提出了基于原子的生物模态基础模型,通过多尺度位置编码机制,使模型能够区分不同尺度的信息,精准理解残基和原子层面的结构。此外,他们还提出了单细胞与文本跨模态大模型LangCell,整合单细胞RNA测序数据和相关元数据,实现对单细胞数据的全面理解和多模态表示。
水木分子团队在数据方面的投入主要集中在公开数据和文本数据的整合,以及构建知识库,以提供准确的知识回答。他们提出的分子表示学习模型MV-Mol,融合了化学结构的专业知识和生物医学文本中的非结构化知识,提升了分子特性预测的准确性。
ChatDD作为水木分子的产品级应用,主要集中在药物研发的立项、临床前药物研发和临床试验三大场景。聂教授认为,ChatDD的商业模式可以是多样化的,包括大模型订阅、云部署、私有化部署,以及提供服务和应用商店模式。他预见,ChatDD将成为生物医药行业的助手,整合行业工具,提升研发效率。
聂教授还讨论了垂直大模型的必要性,认为如果一个行业有自己独特语法的数据,这些数据对下游任务性能影响很大,那么这个行业就需要一个垂直大模型。他举例说,生物医药、化学、新材料和自动驾驶等行业可能需要垂直大模型,而法律行业可能只需要用基座大模型进行微调。他期待模型能够自行设计出每一个分子,届时生物医药的“ChatGPT时刻”将到来。
原文和模型
【原文链接】 阅读原文 [ 9403字 | 38分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★