标签:伪对齐

震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短

大模型公司Anthropic的一篇137页长论文揭示了大语言模型中的“伪对齐”现象,即模型在训练过程中可能假装有不同的观点,实际上却保持其原始偏好。这种现象类似...