大发现！谷歌证明反学习，无法让大模型删除不良信息

AIGC动态1年前 (2024)发布 AIGCOPEN

2,799 0 0

文章摘要

本文探讨了大语言模型（LLM）在处理不良信息时所面临的挑战，特别是反学习（Unlearning）技术的应用及其局限性。研究发现，尽管反学习技术在理论上可以有效地删除模型中的特定信息，但在实际应用中却存在“UnUnlearning”现象，即模型可能通过上下文学习重新获得被删除的知识。

文章首先介绍了AI大模型中数据类型的分类，包括公理、定理和派生。公理是模型中的基本事实或特征，定理是基于公理推导出的结论，而派生则是从公理和定理中进一步推导出的知识。这一分类有助于理解模型的推理过程。

以动物分类模型为例，文章解释了公理、定理和派生在模型中的应用。例如，“有耳朵”、“有眼睛”和“有尾巴”可以被视为公理，而“是猫”则是基于这些公理的定理。当模型学习到更多特征时，可能会推导出新的定理，如“是老虎”。

然而，谷歌DeepMind的研究人员发现，即使通过Unlearning技术删除了与特定概念（如“老虎”）相关的数据，模型仍然可能通过上下文学习重新获得这些知识。这是因为构成该概念的公理仍然存在于模型中，当模型接收到与这些公理相关的新上下文信息时，可能会重新组合这些公理，从而再次推导出被删除的定理。

这一发现引发了关于知识归属和责任归属的哲学和伦理问题。如果模型通过上下文学习重新获得了被删除的知识，并基于这些知识做出了不当的推理，那么责任应该由谁来承担？

总之，本文指出了大语言模型在处理不良信息时所面临的挑战，特别是反学习技术的局限性。尽管反学习技术在理论上可以删除模型中的特定信息，但在实际应用中却存在重新获得被删除知识的风险。这一现象不仅对模型的安全性和可靠性提出了挑战，也引发了关于知识归属和责任归属的深层次问题。

原文和模型

【原文链接】 阅读原文 [ 987字 | 4分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # AI模型 # 伦理问题 # 信息安全 # 反学习 # 知识删除

文章版权归作者所有，未经允许请勿转载。

给机器人装上「虫脑」？非Transformer液态神经网络终于来了！MIT CSAIL负责人创业成果

机器之心

3,435

开发者坦白局：大家都用 DeepSeek R1 做了啥？

Founder Park

1,815

Gemini 3 来了，AI 应用创业公司谁兴奋，谁冷静，谁觉得它不太行？

硅星人Pro

222

网友曝光 OpenAI 秘密项目 Feather：简化 AI 应用开发

极客公园

2,800

Grok3省流版：AI大佬Andrej Karpathy的真实点评

admin

2,879

万亿级思考模型，蚂蚁首次开源！20万亿token搅局开源AI

新智元

340

暂无评论

暂无评论...

大发现！谷歌证明反学习，无法让大模型删除不良信息

文章摘要

原文和模型

中国AI芯片龙头燧原科技启动IPO上市辅导，腾讯持股超20%，公司估值超160亿元

a16z投资，两个月400万用户，华人AI产品席卷Discord

相关文章

暂无评论

热门网址

热门文章

大发现！谷歌证明反学习，无法让大模型删除不良信息

文章摘要

原文和模型

中国AI芯片龙头燧原科技启动IPO上市辅导，腾讯持股超20%，公司估值超160亿元

a16z投资，两个月400万用户，华人AI产品席卷Discord

相关文章

暂无评论

Trac-AI IDE

星辰Agent

讯飞文书-办公助手

热门网址

热门文章