「数据墙」迫近？苹果OpenAI等巨头走投无路，被迫「偷师」YouTube视频！

AIGC动态1年前 (2024)发布 AIera

2,980 0 0

「数据墙」迫近？苹果OpenAI等巨头走投无路，被迫「偷师」YouTube视频！

文章摘要

近日，《连线》杂志和ProofNews联合发表的调查文章指责苹果、Anthropic等科技巨头未经许可使用YouTube视频训练AI模型。文章指出，为了训练生成式AI，科技巨头对训练数据的需求越来越大，甚至包括书籍、文章、社交平台内容等。这些公司在发布商业模型时往往不提及其训练数据的来源、构成和使用许可等信息，引发创作者和媒体平台的不满。

调查发现，这些公司大量窃取了YouTube上的视频字幕用于训练，使用了超过4.8万个频道的17.4万个视频。这些数据指向Eleuther AI在2020年发布的数据集Pile。Pile项目的初衷是帮助小型组织和研究人员，促进AI研究的民主化，但最终被大公司利用。Pile数据集包括YouTube字幕、欧洲议会、英语维基百科的语料等，但论文中详细披露了数据来源并讨论了数据收集的原则和影响。

尽管Pile数据集的论文详细说明了数据的可用性，包括公开数据、符合服务条款的数据和得到作者许可的数据，但创作者对未经同意抓取创作内容用于训练AI的行为感到愤怒。他们认为这是一种剽窃和剥削。一些创作者甚至发现自己的内容被用于训练AI后，被克隆到其他平台上。

大公司则辩称，他们使用Pile数据集是为了研究社区作贡献，推动开源LLM的发展。他们强调Pile是公开数据集，因此使用无可指摘。然而，创作者的愤怒和无奈是真实的，他们担心AI能够生成与他们制作的内容类似的内容，影响他们的生计。

总之，AI科技巨头的数据使用问题引发了创作者和大公司之间的知识产权争议。尽管大公司声称使用公开数据集是为了研究和开源发展，但创作者对未经许可使用其内容的行为感到不满。这一问题需要进一步讨论和解决，以平衡各方的利益。