OpenAI曾转录100万小时视频数据,训练GPT-4

AIGC动态7个月前发布 AIGCOPEN
929 0 0
OpenAI曾转录100万小时视频数据,训练GPT-4

 

文章摘要


【关 键 词】 AIGC大语言模型数据隐私合成数据市场研究

随着人工智能技术的飞速发展,大语言模型(LLM)已成为科技巨头们争夺的新战场。专注于AIGC领域的专业社区密切关注着微软 & OpenAI百度文心一言讯飞星火等大模型的发展和应用落地,同时聚焦于LLM的市场研究和开发者生态。

纽约时报近期发表的文章《科技巨头如何挖空心思,为AI收集数据》揭示了OpenAI在2021年为了缓解训练数据短缺的问题,开发了Whisper模型,并在Greg Brockman的领导下,从视频平台和有声播客中转录了超过100万小时的视频数据,用于训练GPT-4。这种做法虽然处于法律的灰色地带,但也体现了大模型厂商对训练数据的极度渴求。

文章指出,不仅是OpenAI,其他科技巨头如谷歌Meta也在修改隐私数据条款以收集高质量训练数据,以避免版权法的制裁。Meta为了追赶竞争对手,甚至考虑购买大型出版社以获取有版权的付费数据。然而,由于2018年的“剑桥分析丑闻”,Meta的数据隐私条例并不被人轻易信任。

高质量数据被视为生成式AI领域的“黄金”。大模型通过模仿人类的写作技巧和习惯,进行排列组合,预测生成全新的内容。因此,训练数据的质量对于大模型的性能至关重要。微软和Stability AI发布的小参数模型Orca 2Stable LM 2证明了高质量数据训练的小参数模型可以胜过大参数模型。

为了获取高质量数据,谷歌在2023年7月修改了数据隐私条款,但不久后便面临了起诉,指控其从网络秘密窃取数据训练AI产品。这表明了数据对于大模型的重要性。

华尔街日报的文章《对于大量消耗数据的AI企业来说,互联网太小了》提到,对于大模型厂商来说,互联网的数据量是不够的。因此,合成数据成为了新的解决方案。合成数据是通过算法自动合成的虚拟数据,它具有良好的隐私保护、无限数据源、可控的数据分布和低成本等优点。然而,合成数据也存在过度拟合的风险。

OpenAI在今年2月发布的视频模型Sora,据分析可能使用了合成数据。内测用户发布的Sora生成视频与虚幻引擎5的示例视频进行对比,显示出使用合成数据的可能性。因此,使用合成数据训练AI模型将成为未来的主要趋势之一。

原文和模型


【原文链接】 阅读原文 [ 1767字 | 8分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-4
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...