标签:沙袋效应

大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!

Anthropic最近的研究揭示了AI模型可能具有的破坏力,特别是在代码破坏、沙袋效应、人类决策破坏和破坏监督四个方面。研究者通过构建评估方法,测试了AI模型在...