OpenAI曾转录100万小时视频数据，训练GPT-4

AIGC动态1年前 (2024)发布 AIGCOPEN

2,272 0 0

文章摘要

随着人工智能技术的飞速发展，大语言模型（LLM）已成为科技巨头们争夺的新战场。专注于AIGC领域的专业社区密切关注着微软 & OpenAI、百度文心一言、讯飞星火等大模型的发展和应用落地，同时聚焦于LLM的市场研究和开发者生态。

纽约时报近期发表的文章《科技巨头如何挖空心思，为AI收集数据》揭示了OpenAI在2021年为了缓解训练数据短缺的问题，开发了Whisper模型，并在Greg Brockman的领导下，从视频平台和有声播客中转录了超过100万小时的视频数据，用于训练GPT-4。这种做法虽然处于法律的灰色地带，但也体现了大模型厂商对训练数据的极度渴求。

文章指出，不仅是OpenAI，其他科技巨头如谷歌、Meta也在修改隐私数据条款以收集高质量训练数据，以避免版权法的制裁。Meta为了追赶竞争对手，甚至考虑购买大型出版社以获取有版权的付费数据。然而，由于2018年的“剑桥分析丑闻”，Meta的数据隐私条例并不被人轻易信任。

高质量数据被视为生成式AI领域的“黄金”。大模型通过模仿人类的写作技巧和习惯，进行排列组合，预测生成全新的内容。因此，训练数据的质量对于大模型的性能至关重要。微软和Stability AI发布的小参数模型Orca 2和Stable LM 2证明了高质量数据训练的小参数模型可以胜过大参数模型。

为了获取高质量数据，谷歌在2023年7月修改了数据隐私条款，但不久后便面临了起诉，指控其从网络秘密窃取数据训练AI产品。这表明了数据对于大模型的重要性。

华尔街日报的文章《对于大量消耗数据的AI企业来说，互联网太小了》提到，对于大模型厂商来说，互联网的数据量是不够的。因此，合成数据成为了新的解决方案。合成数据是通过算法自动合成的虚拟数据，它具有良好的隐私保护、无限数据源、可控的数据分布和低成本等优点。然而，合成数据也存在过度拟合的风险。

OpenAI在今年2月发布的视频模型Sora，据分析可能使用了合成数据。内测用户发布的Sora生成视频与虚幻引擎5的示例视频进行对比，显示出使用合成数据的可能性。因此，使用合成数据训练AI模型将成为未来的主要趋势之一。