ChatGPT等模型疯狂训练，最快2026年消耗尽公开文本数据

AIGC动态1年前 (2024)发布 AIGCOPEN

2,914 0 0

文章摘要

Epochai发布了一份关于大语言模型（LLM）训练数据消耗的研究报告，指出目前全球公开的高质量文本训练数据集约为300万亿tokens。然而，随着像ChatGPT这样的模型参数和功能的增强，对训练数据的需求呈指数级增长，预计在2026年至2032年之间将耗尽这些数据。研究特别强调“过度训练”是加速数据消耗的主要原因之一。例如，Meta最新开源的Llama 3的8B版本过度训练达到了100倍，而70B版本则为10倍。

过度训练在大模型训练中是一种优化策略，尽管它会增加训练阶段的数据需求，但能够减少推理阶段的算力成本。与传统机器学习中避免过拟合的目标不同，过度训练让模型学习训练数据中的噪音和细节，而不是潜在的数据分布。这种方法在大模型中尤为常见，如GPT-3、Flan137B、Falcon-180B等。

为了应对训练数据的快速消耗，Epochai提出了四种新的数据获取方法。首先是合成数据，通过深度学习模拟真实数据生成新的数据，尽管这种方法可能会引入新的偏差和质量问题。其次是多模态和跨领域数据学习，结合文本、图像、视频、音频等多种数据形式，以更全面地理解和处理复杂任务。第三是利用私有数据，全球文本数据中约有3100万亿tokens是私有数据，尽管获取和整合这些数据存在隐私和安全性问题。最后是与真实世界实时交互学习，通过模型与真实世界的直接互动来学习和进步，这种方法对模型的自主性和决策能力要求较高。

在大模型领域，训练数据已经和AI算力一样变得非常重要，是决定模型性能的关键元素之一。尽管可以再生，但消耗速度过快可能会导致无数据可用的局面。企业和开发者们需要珍惜训练数据，就像珍惜水资源一样，避免在数据枯竭时陷入困境。