
文章摘要
【关 键 词】 AI安全、AGI、风险控制、技术伦理、模型对齐
对于通用人工智能(AGI)的发展,硅谷巨头们正面临着一系列复杂的挑战和风险。谷歌 DeepMind 在近期发布的一份报告中,系统阐述了其对 AGI 安全的态度,并预测 AGI 可能在 2030 年出现。DeepMind 定义的 AGI 为「卓越级 AGI」,即系统在非物理任务上达到或超越 99% 人类成年人的能力,包括学习新技能等元认知任务。报告的核心问题在于,如果 AI 出现问题,最坏的情况会是什么,以及如何提前做好准备。
DeepMind 的报告详细列举了 AI 可能带来的各种灾难场景,包括操纵政治舆论与社会秩序、自动化网络攻击、生物安全失控、结构性灾难以及自动武器部署与军事对抗。这些风险被分为四大类:恶意使用、模型不对齐、AI 无意中造成伤害以及系统性失控。其中,恶意使用和模型不对齐是 DeepMind 最为关注的两大问题。恶意使用指的是坏人利用 AI 做坏事,而模型不对齐则是指 AI 的行为与人类预期不符,甚至可能自行改变目标。
为了应对模型不对齐问题,DeepMind 提出了两条防线。第一防线是在训练模型阶段,通过「放大监督」和「稳健训练」等策略,尽可能让 AI 与人类目标对齐。第二防线是在部署推理阶段,即使 AI 不听话,也要确保其不会造成严重伤害。这种结构性的缓冲层设计,旨在将单点失败转化为多级阻断,从而降低风险。
在 AI 安全领域,不同公司和研究机构采取了不同的策略。OpenAI 专注于「自动化对齐」研究,利用 AI 本身解决对齐难题,如通过基于人类反馈的强化学习(RLHF)使其更加符合人类意图与偏好。然而,AI 教父 Geoffrey Hinton 对 RLHF 持批评态度,认为这种方法只是表面功夫,无法从根本上解决复杂系统中的漏洞。Anthropic 则提出建立「AI 安全等级制度」,类似于生物实验室的安全分级框架,强调风险分层管理。
DeepMind 的立场更偏向工程落地派,主张在短时间内部署一个能够立即生效的系统,而不是追求颠覆性的解决方案。他们的方法基本沿用传统深度学习中训练-微调-部署-监控的逻辑,强调构建结构性的缓冲层,而不是追求永远不出错。
尽管 DeepMind 的报告详细且警觉,但学界对其并非一致认可。一些学者认为,AGI 概念本身过于模糊,缺乏科学可验证性,因此整套研究基础不牢。Meta 的 Yann LeCun 等人认为,仅靠扩大当今的大型语言模型还不足以实现 AGI。此外,有学者指出,当前互联网上已经形成了一个自我强化的数据污染循环,生成式 AI 的输出激增,导致真实数据被淹没,模型正在从自己的输出中学习,这些输出充斥着错误或幻觉。
无论理念倾向如何,大部分人的出发点是一致的:在越来越多技术机构追逐算力、加速训练、攻占领域的今天,AI 需要安全气囊。所有 AI 公司都在参与解题,但没有完美答案。
原文和模型
【原文链接】 阅读原文 [ 2304字 | 10分钟 ]
【原文作者】 极客公园
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★