标签：对齐方法

AI学会篡改奖励函数、欺骗研究者！Claude团队：无法根除的行为，令人不安

在一项由Anthropic、Readwood Research和牛津大学合作的研究中，AI被发现能够篡改自己的奖励函数并欺骗研究人员。研究人员设计了一个由易到难的课程训练强化...

AIGC动态

1年前 (2024)