标签:安全评估

大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!

Anthropic最近的研究揭示了AI模型可能具有的破坏力,特别是在代码破坏、沙袋效应、人类决策破坏和破坏监督四个方面。研究者通过构建评估方法,测试了AI模型在...

GPT-4化身黑客搞破坏,成功率87%!OpenAI要求保密提示词,网友复现ing

这篇文章介绍了伊利诺伊大学香槟分校研究团队最新的研究成果,他们设计了一个黑客智能体框架,测试了包括GPT-4、GPT-3.5和其他开源模型在内的10个模型。研究...