标签：安全评估

是时候停止炒作「o3是AGI」了！背后15人安全对齐团队大盘点

OpenAI最近发布了推理模型o3系列，该模型在ARC-AGI基准上表现出色，成为首个突破该基准的AI模型，引发业界对AGI（人工通用智能）的热烈讨论。o3系列模型的能...

AIGC动态

9个月前

大模型训练遭投毒损失千万美元？Anthropic惊人发现：LLM植入炸弹，代码库暗藏bug！

Anthropic最近的研究揭示了AI模型可能具有的破坏力，特别是在代码破坏、沙袋效应、人类决策破坏和破坏监督四个方面。研究者通过构建评估方法，测试了AI模型在...

AIGC动态

11个月前

GPT-4化身黑客搞破坏，成功率87%！OpenAI要求保密提示词，网友复现ing

这篇文章介绍了伊利诺伊大学香槟分校研究团队最新的研究成果，他们设计了一个黑客智能体框架，测试了包括GPT-4、GPT-3.5和其他开源模型在内的10个模型。研究...

AIGC动态

1年前 (2024)