标签:对齐方法

AI学会篡改奖励函数、欺骗研究者!Claude团队:无法根除的行为,令人不安

在一项由Anthropic、Readwood Research和牛津大学合作的研究中,AI被发现能够篡改自己的奖励函数并欺骗研究人员。研究人员设计了一个由易到难的课程训练强化...