文章摘要
【关 键 词】 大语言模型、训练数据、过度训练、数据获取、多模态
Epochai发布了一份关于大语言模型(LLM)训练数据消耗的研究报告,指出目前全球公开的高质量文本训练数据集约为300万亿tokens。然而,随着像ChatGPT这样的模型参数和功能的增强,对训练数据的需求呈指数级增长,预计在2026年至2032年之间将耗尽这些数据。研究特别强调“过度训练”是加速数据消耗的主要原因之一。例如,Meta最新开源的Llama 3的8B版本过度训练达到了100倍,而70B版本则为10倍。
过度训练在大模型训练中是一种优化策略,尽管它会增加训练阶段的数据需求,但能够减少推理阶段的算力成本。与传统机器学习中避免过拟合的目标不同,过度训练让模型学习训练数据中的噪音和细节,而不是潜在的数据分布。这种方法在大模型中尤为常见,如GPT-3、Flan137B、Falcon-180B等。
为了应对训练数据的快速消耗,Epochai提出了四种新的数据获取方法。首先是合成数据,通过深度学习模拟真实数据生成新的数据,尽管这种方法可能会引入新的偏差和质量问题。其次是多模态和跨领域数据学习,结合文本、图像、视频、音频等多种数据形式,以更全面地理解和处理复杂任务。第三是利用私有数据,全球文本数据中约有3100万亿tokens是私有数据,尽管获取和整合这些数据存在隐私和安全性问题。最后是与真实世界实时交互学习,通过模型与真实世界的直接互动来学习和进步,这种方法对模型的自主性和决策能力要求较高。
在大模型领域,训练数据已经和AI算力一样变得非常重要,是决定模型性能的关键元素之一。尽管可以再生,但消耗速度过快可能会导致无数据可用的局面。企业和开发者们需要珍惜训练数据,就像珍惜水资源一样,避免在数据枯竭时陷入困境。
原文和模型
【原文链接】 阅读原文 [ 2320字 | 10分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-4o
【摘要评分】 ★★★★★