互联网巨头，如何合法地「偷」你的数据训练 AI？

AIGC动态1年前 (2024)发布 geekpark

2,757 0 0

文章摘要

互联网大厂们已经开始合法地使用用户数据进行AI训练。随着AI竞赛的加剧，科技公司需要大量数据来训练模型，当普通数据挖掘殆尽时，用户个人内容成为了新的数据来源。

谷歌在2022年末更新了隐私政策，允许使用公开信息来训练AI模型，并在2023年进一步扩展了可以使用的数据范围，包括用户的Google文档和其他应用中的内容。谷歌声明这些变更只是澄清了新服务的使用范围，但实际上也包括了私人数据的使用。

Meta也在其隐私政策中加入了类似条款，允许使用用户在其平台上提供的活动和信息来训练AI。Meta强调其AI不会读取私人消息，除非用户在消息中@了AI聊天机器人。Meta将与AI互动的责任推给用户，提醒用户不要在提示中包含个人信息。

X（前身为Twitter）在其隐私政策中也加入了关于AI训练的条款，说明会使用收集到的信息来改进和个性化其产品和服务。Snap则更新了其聊天机器人My AI的隐私政策，提醒用户不要分享机密信息，因为这些信息将用于训练AI。

Zoom在2023年7月更新了服务条款，说明会将用户数据用于AI训练，但在遭遇用户和隐私提倡者的批评后，澄清未经同意不会使用视频、音频或聊天内容。Adobe也因在隐私政策中加入关于自动化的短语而激怒了用户，最终澄清不会使用客户作品训练AI。

这些科技巨头的行为引起了监管机构的关注。美国联邦贸易委员会（FTC）警告科技公司，改变隐私政策以追溯性地抓取旧数据可能是不公平或欺骗性的，并表示将追究那些悄悄更改隐私政策以挖掘用户数据用于AI的公司。尽管如此，微软AI CEO公开表示互联网的公开内容可以被免费用于AI训练，引发了强烈的舆论反弹。

科技巨头们在用户使用条款中的改动显示，各家公司确实在利用产品优势，将用户数据用于AI训练。然而，具体哪些数据会被用于训练，行业内尚未达成共识。这种规则缺乏的阶段被形容为“狂野西部”，而这些修改后的使用条款无疑是巨头们为之后免责提前占的坑。

对于普通用户而言，面对长达数十页的用户使用条款，绝大多数人会选择忽视。然而，当产品能够通过有限的数据复制出一个“你”时，用户是否应该更加谨慎？