你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢!

AIGC动态8个月前发布 AIera
1,342 0 0
你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢!

 

文章摘要


【关 键 词】 数据荒版权争夺AI训练隐私泄露合成数据

随着2026年数据荒的临近,硅谷的科技巨头们为了获取AI训练数据展开了激烈的竞争,不惜斥巨资购买互联网上的各类数据,包括旧照片、视频和聊天记录。这种对数据的疯狂追求不仅揭示了AI训练对数据的巨大需求,也引发了关于隐私和版权的严重担忧。

在数据获取方面,图像托管网站Photobucket的陈年数据成为了热门资源,科技公司为了训练AI模型不惜重金购买。Meta的图像生成器因为无法生成某些特定人群组合的图片而引发了关于AI偏见的讨论。此外,OpenAI因使用未经授权的版权材料而陷入诉讼风波,而其他公司则开始为获取锁定内容的授权付费。

在版权问题上,OpenAI的Sora训练数据来源不详,而公司在版权诉讼中的态度则是自己的做法完全合法。然而,这并未阻止其他公司寻求更合法的数据来源,例如通过数据经纪人或直接与内容提供商如Shutterstock和美联社签许可协议。

AI数据定制行业也随之兴起,公司如Defined.ai通过获取现实世界内容的授权并建立合同工网络来定制数据。这些数据的销售价格根据类型不同而有所差异,但都为数据所有者带来了可观的收入。

隐私问题也成为了一个严重的隐患。AI模型有时会吐出训练数据中的个人信息,如自拍照或私密聊天记录,这引发了用户对个人数据安全的担忧。一些用户表示愿意支付额外费用以保护自己的数据不被第三方使用。

合成数据的概念也受到了重视,Sam Altman认为AI模型能够自主创造出高质量的合成数据是解决问题的关键。然而,这一领域仍存在挑战,因为模型可能会陷入重复自身错误的循环。

数据的重要性在于,大量的训练数据可以显著提高AI模型的性能。这一点在OpenAI的GPT-3和GPT-4的开发中得到了体现,这些模型通过分析大量数据展现出了强大的文本生成能力。谷歌和Meta也在追求更多的数据以提升自己的AI产品。

总的来说,随着AI技术的发展,对数据的需求日益增长,但这也带来了版权、隐私和偏见等一系列问题。解决这些问题需要行业内外的共同努力和更多的法律和伦理指导。

原文和模型


【原文链接】 阅读原文 [ 4166字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...