Hugging Face 年度回顾：2023，开源大模型之年

AIGC动态2年前 (2024)更新 admin

5,702 0 0

原文作者：极客公园
作者简介：用极客视角，追踪你最不可错过的科技圈。欢迎关注播客（小宇宙App）👉开始连接LinkStart
微信号：geekpark

关键词：人工智能、大型语言模型、开源模型、预训练模型、Transformer架构
文章摘要：
2023年是开源大模型的一年，大型语言模型（LLMs）受到了广泛关注。
开源模型的优势在于促进了研究的可复制性，鼓励社区参与到模型的开发中来，并减少整个领域的碳足迹。在过去一年，许多开源模型问世，包括BLOOM、OPT、GLM-130B等。这些模型的规模从几十亿到千亿不等，训练数据集包括多种语言和编程语言的文本。此外，还有一些较小或更专业的开源模型发布，服务于科研领域。
在2023年，模型的发布速度非常快，几乎每月都有新的模型问世。这些模型大多配备了预训练版本和对话微调版本，通过不同的微调方法，模型在对话场景中的表现得到了显著提升。其中，基于对话的微调、指令微调和从人类反馈中强化学习是常用的微调方法。
虽然模型的性能有了显著提升，但仍未能完全达到人类的预期水平。因此，人们不断探索新的微调方法，如从人工智能反馈中学习的强化学习和直接偏好优化。整个社区对开源大模型的发展充满了期待，并不断努力推动技术的进步。