文章摘要
【关 键 词】 数据短缺、AI训练、合成数据、算力挑战、数据市场
【新智元导读】随着人工智能技术的飞速发展,数据成为了AI模型训练的关键资源。然而,高质量数据的稀缺性已经成为了AI行业面临的一个严峻挑战。OpenAI、Anthropic等公司正在探索新的方法来训练下一代AI模型,以应对这一问题。
全球范围内,高质量数据集的短缺已经成为一个紧迫的问题。AI公司如OpenAI和Anthropic正努力寻找新的数据源来训练更强大的AI模型。尽管OpenAI和微软联手打造超级计算平台「星际之门」以解决算力问题,但数据依然是AI发展的关键。例如,GPT-5的训练使用了YouTube视频数据。
互联网上的高质量公共数据变得越来越稀缺,一些数据所有者如Reddit制定了政策来阻止AI公司访问其数据。研究人员警告,高质量文本数据的需求可能在两年内超过供应,这将减缓AI的发展。为了解决这一问题,AI公司正在寻找未开发的信息源,并重新思考如何训练AI系统。OpenAI已经在讨论如何通过转录YouTube公开视频来训练GPT-5,并与不同机构合作共享内容和技术。同时,一些公司开始使用AI生成的合成数据作为训练材料,尽管这可能导致性能下降。
数据、算力和算法是训练强大AI的重要资源。例如,ChatGPT和Gemini等大型模型的训练基于互联网上获取的文本数据,但这些数据中只有一小部分对模型训练有用。社交媒体平台和新闻出版商限制AI公司使用其数据,而公众也不愿意提供私人对话数据。Meta则将其平台上获取的数据视为AI研究的优势,可以挖掘数千亿张公开共享的图片和视频。DatologyAI等初创公司正在开发数据选择工具,使用「课程学习」策略来训练AI,希望以更低的成本取得更好的训练效果。
OpenAI和谷歌正在探索建立「数据市场」的可能性,以确定每个数据点对训练模型的贡献,并向内容提供商支付费用。同时,一些公司正在尝试制作自己的数据,避免AI生成的文本导致的「模型崩溃」问题。尽管面临挑战,许多研究人员仍然乐观地认为,最终会找到解决「数据短缺」的方案。
原文和模型
【原文链接】 阅读原文 [ 1897字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★☆