原文作者:极客公园
作者简介:用极客视角,追踪你最不可错过的科技圈。欢迎关注播客(小宇宙App)👉开始连接LinkStart
微信号:geekpark
关键词:人工智能、大型语言模型、开源模型、预训练模型、Transformer架构
文章摘要:
2023年是开源大模型的一年,大型语言模型(LLMs)受到了广泛关注。
开源模型的优势在于促进了研究的可复制性,鼓励社区参与到模型的开发中来,并减少整个领域的碳足迹。在过去一年,许多开源模型问世,包括BLOOM、OPT、GLM-130B等。这些模型的规模从几十亿到千亿不等,训练数据集包括多种语言和编程语言的文本。此外,还有一些较小或更专业的开源模型发布,服务于科研领域。
在2023年,模型的发布速度非常快,几乎每月都有新的模型问世。这些模型大多配备了预训练版本和对话微调版本,通过不同的微调方法,模型在对话场景中的表现得到了显著提升。其中,基于对话的微调、指令微调和从人类反馈中强化学习是常用的微调方法。
虽然模型的性能有了显著提升,但仍未能完全达到人类的预期水平。因此,人们不断探索新的微调方法,如从人工智能反馈中学习的强化学习和直接偏好优化。整个社区对开源大模型的发展充满了期待,并不断努力推动技术的进步。
原文链接:阅读原文
原文字数:9277
阅读时长:31分钟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...