Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌

文章摘要
【关 键 词】 AI、神经网络、Transformer、硬件、开源
在苏黎世联邦理工学院的信息学研讨会上,谷歌首席科学家 Jeff Dean 发表了一场关于 AI 发展趋势的演讲,回顾了 AI 近十五年的发展历程,并展望了未来的可能性。他首先强调了机器学习对计算机能力的彻底改变,指出增加计算规模、数据和模型大小能够显著提升结果,同时算法和模型架构的改进也带来了巨大的进步。Jeff Dean 特别提到,计算类型和硬件的变化正在推动 AI 的进一步发展。
在回顾 AI 发展时,Jeff Dean 重点介绍了神经网络和反向传播技术,这两者是深度学习革命的核心。2012 年,谷歌通过训练一个比当时最大神经网络大 60 倍的模型,证明了更大规模的模型能够显著提升性能。这一研究促使谷歌开发了首个大规模神经网络基础设施 DistBelief,该系统通过模型并行化和数据并行化实现了分布式计算,为后续的 AI 发展奠定了基础。
2013 年,谷歌通过 Word2Vec 模型展示了高维向量表示词的有效性,发现词与词之间的关系可以通过向量空间中的方向和距离来捕捉。2014 年,谷歌开发了序列到序列学习模型,进一步推动了语言翻译等任务的发展。同时,Jeff Dean 开始关注硬件优化,并推动了张量处理单元(TPU)的研发。TPU 在推理任务上比 CPU 和 GPU 快 15 到 30 倍,能源效率也显著提升。
2017 年,Transformer 模型的诞生标志着 AI 领域的又一重大突破。Transformer 通过注意力机制解决了循环模型的顺序化问题,显著提升了并行性和效率。几乎所有现代大型语言模型都基于 Transformer 或其变体。此外,谷歌还开发了稀疏模型技术,通过激活模型中的一小部分专家来提升效率。
2018 年,谷歌开始探索大规模分布式计算的软件抽象,并开发了 Pathways 系统,简化了大规模计算的部署和运行。2022 年,谷歌提出了思维链(CoT)技术,通过鼓励模型生成思考步骤,显著提升了推理任务的准确性。同年,谷歌还研究了不同的推理并行化方案,进一步优化了计算效率。
2023 年,谷歌开发了推测式解码技术,通过结合小模型和大模型的预测能力,显著提升了推理速度。Jeff Dean 总结道,从底层的 TPU 到高层的软件和技术进步,共同推动了 Gemini 系列模型的发展。他展望了 AI 未来的积极影响,认为 AI 将在多个领域产生深远影响,并让更多人更容易获得专业知识。
总的来说,Jeff Dean 的演讲展示了 AI 从基础研究到实际应用的完整发展脉络,强调了硬件、算法和软件协同进步的重要性,并展望了 AI 在未来社会中的广泛应用前景。
原文和模型
【原文链接】 阅读原文 [ 4873字 | 20分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★