没有数据训练大模型?OpenAI 总裁带队转录YouTube视频,谷歌、Meta 也想尽数据收割套路

AIGC动态7个月前发布 ai-front
1,079 0 0
没有数据训练大模型?OpenAI 总裁带队转录YouTube视频,谷歌、Meta 也想尽数据收割套路

 

文章摘要


【关 键 词】 AI训练数据短缺版权争议合成数据科技巨头

2021年底OpenAI面临数据供应短缺,耗尽了互联网上所有质量稳定的英语文本库。为开发下一代AI系统,他们开发了Whisper语音识别工具,转录YouTube视频中的音频生成新的对话文本,用作AI系统训练素材。尽管部分员工讨论了可能违反YouTube规则,OpenAI团队仍转录了超过100万小时的视频,文本被用于训练GPT-4系统,目前公认的最强AI模型之一。

这场AI军备竞赛已变成数据搜集对抗。科技巨头OpenAI谷歌Meta为获取数据,无视原则、修改规定,甚至讨论规避版权。Meta公司曾讨论收购出版社作品,收集互联网上受版权保护的数据。谷歌转录YouTube视频获取文本素材,可能侵犯版权。谷歌还扩大服务条款,提取更多信息训练AI产品。

在线信息成为AI行业基础。构建创新系统依赖于获取充足数据训练模型,生成与人类水平相当的文本、图像、声音和视频内容。领先的聊天机器人系统从3万亿字的数字文本池中学习,约等于牛津大学博德利图书馆馆藏书籍总字数的两倍。

研究机构Epoch预测,科技企业可能在2026年用尽互联网上的高质量数据,使用速度超过产出速度。AI工具获取实用功能需大量数据训练,集体许可也难以满足。部分公司开始使用合成信息,即AI模型自身生成的文本、图像和代码。

OpenAI表示其AI模型使用独特数据集,谷歌称其AI模型接受了部分YouTube内容训练,Meta则使用Instagram和Facebook的公开图像和视频进行模型训练。创作作品成为AI训练素材,引发版权和许可诉讼。《纽约时报》起诉OpenAI和微软侵权,两者则称属于合理使用。

Jared Kaplan的论文指出,训练大语言模型需大量数据,模型性能与数据量成正比。这成为AI竞赛的口号。长期以来,研究人员使用大型公共数字信息数据库开发AI,如维基百科Common Crawl。但随着Kaplan论文发表,这些数据量已不足够。

OpenAI发布GPT-3后,迫切需要更多数据开发GPT-4。员工讨论了转录播客、有声读物和YouTube视频的可行性。最终开发了Whisper,转录YouTube视频和播客。尽管知道可能违法,他们相信属于合理使用。谷歌员工知道OpenAI的做法,但未阻止,因为谷歌也使用YouTube视频训练AI模型。

谷歌发言人表示,对OpenAI行为一无所知,禁止未经授权抓取或下载YouTube内容。谷歌隐私政策允许使用YouTube用户数据开发新功能,但不清楚是否可以用于构建商业服务,如聊天机器人。

Meta CEO Mark Zuckerberg在AI领域投资多年,但发现落后于OpenAI的ChatGPT。他决定迎头赶上,但Meta也面临数据短缺问题。Meta高管讨论获取更多数据,考虑收购出版社,甚至冒着诉讼风险。Zuckerberg要求解决方案,但Meta运营的社交网络没有丰富的用户帖子可供使用。

面对数据短缺,OpenAI的Altman提出使用合成数据。他认为,AI模型能生成与人类相似的文本,就能输出额外数据开发更好的模型版本。这将减少对受版权保护数据的依赖。多年来,AI研究人员探索合成数据的可行性,但构建能自我训练的AI系统困难重重。OpenAI和其它厂商正在研究如何让两套独立的AI模型协同工作,生成有用、可靠的合成数据。尽管存在分歧,AI大厂高管们仍在前进。

原文和模型


【原文链接】 阅读原文 [ 6124字 | 25分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...