标签:安全评估
是时候停止炒作「o3是AGI」了!背后15人安全对齐团队大盘点
OpenAI最近发布了推理模型o3系列,该模型在ARC-AGI基准上表现出色,成为首个突破该基准的AI模型,引发业界对AGI(人工通用智能)的热烈讨论。o3系列模型的能...
大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!
Anthropic最近的研究揭示了AI模型可能具有的破坏力,特别是在代码破坏、沙袋效应、人类决策破坏和破坏监督四个方面。研究者通过构建评估方法,测试了AI模型在...
GPT-4化身黑客搞破坏,成功率87%!OpenAI要求保密提示词,网友复现ing
这篇文章介绍了伊利诺伊大学香槟分校研究团队最新的研究成果,他们设计了一个黑客智能体框架,测试了包括GPT-4、GPT-3.5和其他开源模型在内的10个模型。研究...