你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢！

AIGC动态1年前 (2024)发布 AIera

3,499 0 0

文章摘要

随着2026年数据荒的临近，硅谷的科技巨头们为了获取AI训练数据展开了激烈的竞争，不惜斥巨资购买互联网上的各类数据，包括旧照片、视频和聊天记录。这种对数据的疯狂追求不仅揭示了AI训练对数据的巨大需求，也引发了关于隐私和版权的严重担忧。

在数据获取方面，图像托管网站Photobucket的陈年数据成为了热门资源，科技公司为了训练AI模型不惜重金购买。Meta的图像生成器因为无法生成某些特定人群组合的图片而引发了关于AI偏见的讨论。此外，OpenAI因使用未经授权的版权材料而陷入诉讼风波，而其他公司则开始为获取锁定内容的授权付费。

在版权问题上，OpenAI的Sora训练数据来源不详，而公司在版权诉讼中的态度则是自己的做法完全合法。然而，这并未阻止其他公司寻求更合法的数据来源，例如通过数据经纪人或直接与内容提供商如Shutterstock和美联社签许可协议。

AI数据定制行业也随之兴起，公司如Defined.ai通过获取现实世界内容的授权并建立合同工网络来定制数据。这些数据的销售价格根据类型不同而有所差异，但都为数据所有者带来了可观的收入。

隐私问题也成为了一个严重的隐患。AI模型有时会吐出训练数据中的个人信息，如自拍照或私密聊天记录，这引发了用户对个人数据安全的担忧。一些用户表示愿意支付额外费用以保护自己的数据不被第三方使用。

合成数据的概念也受到了重视，Sam Altman认为AI模型能够自主创造出高质量的合成数据是解决问题的关键。然而，这一领域仍存在挑战，因为模型可能会陷入重复自身错误的循环。

数据的重要性在于，大量的训练数据可以显著提高AI模型的性能。这一点在OpenAI的GPT-3和GPT-4的开发中得到了体现，这些模型通过分析大量数据展现出了强大的文本生成能力。谷歌和Meta也在追求更多的数据以提升自己的AI产品。

总的来说，随着AI技术的发展，对数据的需求日益增长，但这也带来了版权、隐私和偏见等一系列问题。解决这些问题需要行业内外的共同努力和更多的法律和伦理指导。

原文和模型

【原文链接】 阅读原文 [ 4166字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

OpenAI GPT-4

GPT-4是OpenAI公司开发的自然...

# AIGC动态 # GPT-GPTs # 图像生成 # 大模型 # 视频生成 # AI训练 # Azure # gpt-4 # 合成数据 # 数据荒 # 新智元 # 版权争夺 # 隐私泄露

文章版权归作者所有，未经允许请勿转载。

牛津剑桥「投毒」AI失败9次登Nature封面，引爆学术圈激辩！AI训AI能否打破崩溃魔咒？

新智元

2,805

美国对AI分歧加剧：摩根大通CEO称将带来蒸汽机式变革，但红杉资本批评企业难盈利｜钛媒体AGI

钛媒体AGI

1,920

OpenAI发布全新微调API ：ChatGPT支持更详细可视化微调啦！

AIGC开放社区

2,294

台积电董事长预测：未来15年每瓦GPU性能提升1000倍，GPU晶体管数破万亿！

新智元

2,353

Babel 张海龙：AI Agent 将铸就一支“钢铁雄师”

AI科技评论

2,102

首个自主完成人类任务机器人出现，五指灵活速度超人，大模型加持虚拟空间训练

新智元

2,009

暂无评论

暂无评论...

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢！

文章摘要

原文和模型

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

Scaling Law 又一次性感了吗？

相关文章

暂无评论

热门网址

热门文章

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢！

文章摘要

原文和模型

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

Scaling Law 又一次性感了吗？

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章