盘一盘,2017年Transformer之后,LLM领域的重要论文

文章摘要
Andrej Karpathy 的最新演讲提出了「软件 3.0」的概念,强调自然语言正在成为新的编程接口,而 AI 模型负责执行具体任务。这一变革不仅影响开发者,还深刻改变了用户与软件的交互方式,标志着一种全新计算范式的诞生。回顾自 2017 年 Transformer 架构问世以来的发展历程,LLM(大语言模型)领域经历了快速演进,GPT 系列和多模态能力的突破尤为显著。
Transformer 架构的提出是这一变革的基石。 2017 年的论文《Attention Is All You Need》摒弃了传统的循环和卷积网络,仅依靠自注意力机制处理序列数据,极大地提升了机器翻译等任务的效率和质量。这一架构不仅催生了 GPT 和 BERT 等 LLM,还被广泛应用于计算机视觉等领域,成为现代 AI 的核心技术。
2020 年,GPT-3 的发布进一步验证了「大模型 + 大数据」的缩放定律。GPT-3 通过少样本学习展示了强大的通用性,无需微调即可在多种自然语言任务中表现出色。这一发现直接引领了全球范围内的 LLM 军备竞赛,并开创了以提示工程为核心的新型 AI 应用范式。
基于人类反馈的强化学习(RLHF)成为对齐 LLM 的关键技术。 2017 年的论文《Deep Reinforcement Learning from Human Preferences》首次提出通过人类偏好训练奖励模型,这一方法后来被广泛应用于 ChatGPT 等模型的微调,确保其输出更符合人类价值观。2022 年的论文《Training language models to follow instructions with human feedback》进一步优化了 RLHF 方法,催生了现象级产品 ChatGPT,并确立了 RLHF 作为行业标准。
BERT 的发布则标志着 NLP 领域的另一场革命。通过双向上下文理解和掩码语言模型预训练任务,BERT 在多项主流任务上刷新了最高分纪录,确立了「预训练 + 微调」的行业标准范式。这一模型极大地简化了为特定任务构建高性能模型的流程,成为后续无数模型的基础。
Chinchilla 论文挑战了「模型越大越好」的普遍认知。 2022 年的论文《Training Compute-Optimal Large Language Models》指出,现有的 LLM 普遍处于训练不足的状态,模型大小和训练数据应同步增长。这一发现改变了 LLM 的研发方向,促使业界从单纯追求模型规模转向追求计算最优的平衡。
GPT-4 的发布进一步巩固了大规模基础模型作为通往更强人工智能的关键路径。GPT-4 不仅展示了在多模态任务中的卓越性能,还推动了 AI 在各行业的深度应用。LLaMA 的发布则打破了少数科技巨头的技术垄断,推动了开源 AI 生态的繁荣。
FlashAttention 和 PagedAttention 等技术显著提升了 LLM 的训练和推理效率。 这些技术通过优化内存管理和计算顺序,使得在更少硬件资源下训练更大模型成为可能,直接推动了长上下文窗口模型的发展。
Mamba 和 QLoRA 等新型架构和微调方法进一步降低了 LLM 的研发门槛。Mamba 通过选择性机制改进了状态空间模型,为长序列建模提供了新的选择。QLoRA 则通过量化技术使得在消费级硬件上微调大模型成为可能,极大地推动了开源社区的创新。
LAION-5B 数据集的发布极大地推动了多模态 AI 的发展。 这一大规模、开放的图文对数据集为训练下一代多模态模型提供了宝贵资源,显著降低了顶尖 AI 模型的研发门槛。
思想树(Tree of Thoughts)框架的提出则为提升 LLM 的推理能力提供了全新途径。通过允许模型探索多个推理路径,这一框架显著提升了复杂任务的表现,推动了从简单生成到复杂推理的技术演进。
LLM 的涌现能力为模型缩放路线提供了更深层次的理论解释。 2022 年的论文《Emergent Abilities of Large Language Models》指出,LLM 的能力并非随着规模增大而平滑提升,而是会涌现出一些小模型完全不具备的新能力。这一发现激发了业界对探索和理解大模型能力边界的浓厚兴趣。
Megatron-LM 的发布则展示了如何通过模型并行化训练数十亿参数的 LLM。这一技术为后续超大规模模型的训练提供了重要参考,推动了 AI 领域的军备竞赛。
总的来说,LLM 领域的快速发展不仅推动了技术的进步,还深刻改变了 AI 的应用范式和研究方向。从 Transformer 架构到 GPT-4,从 RLHF 到涌现能力,这些关键突破共同塑造了现代 AI 的格局,并为未来的发展奠定了坚实基础。
原文和模型
【原文链接】 阅读原文 [ 7126字 | 29分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆