谷歌承认“窃取”OpenAI模型关键信息：成本低至150元，调用API即可得手

AIGC动态2年前 (2024)更新 QbitAI

2,527 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★☆☆☆

文章摘要

这篇文章报道了谷歌成功窃取了OpenAI的关键信息，包括整个投影矩阵和隐藏维度大小，特别是针对gpt-3.5-turbo模型。谷歌通过向API发出针对性查询，不到2000次就能实现这一目标，成本低至20美元以内。攻击的核心是针对模型的嵌入投影层，通过大量查询和奇异值排序来识别隐藏维度。这种攻击方法适用于生成式模型，如GPT-4、PaLM2等。研究团队已经通报了OpenAI，并得到了他们的同意。在攻击完成后，他们确认了方法的有效性并删除了相关数据。研究团队提供了一些防御措施，包括从API下手删除logit bias参数或者在训练完成后修改隐藏维度。最终，OpenAI选择修改模型API以防止类似攻击。这个实验证明了即使OpenAI加强了安全措施，也并非完全安全。文章提供了论文链接和参考链接，以及关于2024年AIGC企业和产品评选的信息。