训出GPT-5短缺20万亿token！OpenAI被曝计划建「数据市场」

AIGC动态1年前 (2024)发布 AIera

2,477 0 0

文章摘要

【新智元导读】随着人工智能技术的飞速发展，数据成为了AI模型训练的关键资源。然而，高质量数据的稀缺性已经成为了AI行业面临的一个严峻挑战。OpenAI、Anthropic等公司正在探索新的方法来训练下一代AI模型，以应对这一问题。

全球范围内，高质量数据集的短缺已经成为一个紧迫的问题。AI公司如OpenAI和Anthropic正努力寻找新的数据源来训练更强大的AI模型。尽管OpenAI和微软联手打造超级计算平台「星际之门」以解决算力问题，但数据依然是AI发展的关键。例如，GPT-5的训练使用了YouTube视频数据。

互联网上的高质量公共数据变得越来越稀缺，一些数据所有者如Reddit制定了政策来阻止AI公司访问其数据。研究人员警告，高质量文本数据的需求可能在两年内超过供应，这将减缓AI的发展。为了解决这一问题，AI公司正在寻找未开发的信息源，并重新思考如何训练AI系统。OpenAI已经在讨论如何通过转录YouTube公开视频来训练GPT-5，并与不同机构合作共享内容和技术。同时，一些公司开始使用AI生成的合成数据作为训练材料，尽管这可能导致性能下降。

数据、算力和算法是训练强大AI的重要资源。例如，ChatGPT和Gemini等大型模型的训练基于互联网上获取的文本数据，但这些数据中只有一小部分对模型训练有用。社交媒体平台和新闻出版商限制AI公司使用其数据，而公众也不愿意提供私人对话数据。Meta则将其平台上获取的数据视为AI研究的优势，可以挖掘数千亿张公开共享的图片和视频。DatologyAI等初创公司正在开发数据选择工具，使用「课程学习」策略来训练AI，希望以更低的成本取得更好的训练效果。

OpenAI和谷歌正在探索建立「数据市场」的可能性，以确定每个数据点对训练模型的贡献，并向内容提供商支付费用。同时，一些公司正在尝试制作自己的数据，避免AI生成的文本导致的「模型崩溃」问题。尽管面临挑战，许多研究人员仍然乐观地认为，最终会找到解决「数据短缺」的方案。