数据即将耗尽？大型 AI 公司中没有人会感到恐慌

1,628 0 0

文章摘要

人工智能（AI）的发展在过去十年中取得了爆炸性的进展，这主要归功于神经网络规模的扩大和对大量数据的训练。然而，随着对数据的需求不断增长，AI研究人员正面临数据资源的枯竭问题。Epoch AI的研究人员预测，到2028年，用于训练AI模型的数据集规模将达到公共在线文本的总估计量，意味着AI可能在四年内耗尽训练数据。同时，数据所有者开始限制内容的使用，进一步加剧了数据共享的危机。

尽管存在这些限制，AI开发人员正在寻找解决方案。一些知名AI公司如OpenAI和Anthropic已经公开承认了这个问题，并表示他们有计划解决，包括生成新数据和寻找非常规数据源。数据危机可能会迫使AI模型从大型、通用的语言模型（LLM）转变为更小、更专业的模型。

过去十年中，LLM的发展显示出对数据的巨大需求。自2020年以来，用于训练LLM的“token”或单词部分的数量增加了100倍，从数千亿增至数万亿。然而，互联网上的内容增长速度远低于AI训练数据集的规模增长速度。内容提供商也在采取措施阻止网络爬虫或AI公司抓取其数据进行训练。

数据危机给传统AI的规模化策略带来了挑战。一种可能的解决方案是收集非公开数据，如WhatsApp的消息或YouTube视频的转录文字。另一种选择是专注于正在快速增长的专业数据集，如天文或基因组数据。此外，一些模型已经能够在一定程度上对未标记的视频或图像进行训练，扩展和改进这些能力可能会为更丰富的数据打开闸门。

如果找不到数据，可以多创造一些。一些AI公司付费让人为AI训练生成内容；另一些公司则使用AI生成的合成数据来训练AI。合成数据似乎适用于有严格、可识别规则的领域，如国际象棋、数学或计算机编码。然而，合成数据的问题在于，递归循环可能会巩固虚假信息，放大误解，并普遍降低学习质量。

另一种策略是放弃“越大越好”的概念，转而追求更高效、更专注于单个任务的小模型。这些模型需要精确、专业的数据和更好的训练技术。AI已经在用更少的资源做更多的事情，由于算法的改进，LLM实现相同性能所需的计算能力每八个月左右就会减半。

总体而言，专家们一致认为，合成数据、专门的数据集、重读和自我反思等因素都会有所帮助。模型能够独立思考，并且能够以各种方式与现实世界互动，这可能会推动AI的前沿发展。