没有数据训练大模型？OpenAI 总裁带队转录YouTube视频，谷歌、Meta 也想尽数据收割套路

AIGC动态1年前 (2024)发布 ai-front

2,656 0 0

没有数据训练大模型？OpenAI 总裁带队转录YouTube视频，谷歌、Meta 也想尽数据收割套路

文章摘要

2021年底，OpenAI面临数据供应短缺，耗尽了互联网上所有质量稳定的英语文本库。为开发下一代AI系统，他们开发了Whisper语音识别工具，转录YouTube视频中的音频生成新的对话文本，用作AI系统训练素材。尽管部分员工讨论了可能违反YouTube规则，OpenAI团队仍转录了超过100万小时的视频，文本被用于训练GPT-4系统，目前公认的最强AI模型之一。

这场AI军备竞赛已变成数据搜集对抗。科技巨头如OpenAI、谷歌和Meta为获取数据，无视原则、修改规定，甚至讨论规避版权。Meta公司曾讨论收购出版社作品，收集互联网上受版权保护的数据。谷歌转录YouTube视频获取文本素材，可能侵犯版权。谷歌还扩大服务条款，提取更多信息训练AI产品。

在线信息成为AI行业基础。构建创新系统依赖于获取充足数据训练模型，生成与人类水平相当的文本、图像、声音和视频内容。领先的聊天机器人系统从3万亿字的数字文本池中学习，约等于牛津大学博德利图书馆馆藏书籍总字数的两倍。

研究机构Epoch预测，科技企业可能在2026年用尽互联网上的高质量数据，使用速度超过产出速度。AI工具获取实用功能需大量数据训练，集体许可也难以满足。部分公司开始使用合成信息，即AI模型自身生成的文本、图像和代码。

OpenAI表示其AI模型使用独特数据集，谷歌称其AI模型接受了部分YouTube内容训练，Meta则使用Instagram和Facebook的公开图像和视频进行模型训练。创作作品成为AI训练素材，引发版权和许可诉讼。《纽约时报》起诉OpenAI和微软侵权，两者则称属于合理使用。

Jared Kaplan的论文指出，训练大语言模型需大量数据，模型性能与数据量成正比。这成为AI竞赛的口号。长期以来，研究人员使用大型公共数字信息数据库开发AI，如维基百科和Common Crawl。但随着Kaplan论文发表，这些数据量已不足够。

OpenAI发布GPT-3后，迫切需要更多数据开发GPT-4。员工讨论了转录播客、有声读物和YouTube视频的可行性。最终开发了Whisper，转录YouTube视频和播客。尽管知道可能违法，他们相信属于合理使用。谷歌员工知道OpenAI的做法，但未阻止，因为谷歌也使用YouTube视频训练AI模型。

谷歌发言人表示，对OpenAI行为一无所知，禁止未经授权抓取或下载YouTube内容。谷歌隐私政策允许使用YouTube用户数据开发新功能，但不清楚是否可以用于构建商业服务，如聊天机器人。

Meta CEO Mark Zuckerberg在AI领域投资多年，但发现落后于OpenAI的ChatGPT。他决定迎头赶上，但Meta也面临数据短缺问题。Meta高管讨论获取更多数据，考虑收购出版社，甚至冒着诉讼风险。Zuckerberg要求解决方案，但Meta运营的社交网络没有丰富的用户帖子可供使用。

面对数据短缺，OpenAI的Altman提出使用合成数据。他认为，AI模型能生成与人类相似的文本，就能输出额外数据开发更好的模型版本。这将减少对受版权保护数据的依赖。多年来，AI研究人员探索合成数据的可行性，但构建能自我训练的AI系统困难重重。OpenAI和其它厂商正在研究如何让两套独立的AI模型协同工作，生成有用、可靠的合成数据。尽管存在分歧，AI大厂高管们仍在前进。