今天,OpenAI Deep Research已向所有付费用户开放,系统卡发布

今天,OpenAI Deep Research已向所有付费用户开放,系统卡发布

 

文章摘要


【关 键 词】 智能体Deep Research信息查询安全测试风险评估

OpenAI最近宣布其强大的智能体Deep Research已经向所有ChatGPT Plus、Team、Edu和Enterprise用户开放,最初只有Pro用户可以访问。同时,OpenAI发布了Deep Research系统卡,揭示了该技术背后的细节和安全措施。

Deep Research是一个能够使用推理来综合大量在线信息并完成多步骤研究任务的智能体,它可以帮助用户进行深入、复杂的信息查询与分析。该智能体使用的基础模型是o3正式版,而非o3-mini。Deep Research模型基于为网页浏览优化的OpenAI o3早期版本,能够搜索、解读和分析互联网上的文本、图像和PDF,并根据信息做出调整。此外,它还能读取用户提供的文件,并通过编写和执行Python代码来分析数据。

OpenAI强调,Deep Research在发布前经过了严格的安全测试、准备度评估和治理审查。公司还进行了额外的安全测试,以更好地了解与Deep Research浏览网页能力相关的增量风险,并增加了新的缓解措施。这些措施包括加强对在线发布的个人信息的隐私保护,以及训练模型以抵御在搜索互联网时可能遇到的恶意指令。

Deep Research的训练数据是专门为研究用例创建的新浏览数据集,模型学习了核心的浏览功能,并在沙盒环境中使用Python工具进行计算、数据分析和图表绘制。训练数据集包含从客观自动评分任务到更开放的任务,评分过程使用的评分器是一个思维链模型。

在风险识别、评估和缓解方面,OpenAI与外部红队成员团队合作,评估了与Deep Research能力相关的关键风险,包括个人信息和隐私、不允许的内容、受监管的建议等。红队成员能够通过各种策略规避一些拒绝行为,OpenAI根据这些数据构建的评估将Deep Research的性能与之前部署的模型进行比较。

准备度框架评估显示,Deep Research模型在网络安全、说服、CBRN、模型自主性等方面被评为总体中等风险。OpenAI表示,模型训练和开发的整个过程中都进行了评估,包括模型启动前的最后一次扫描。安全咨询小组将Deep Research模型评级为总体中等风险,这是模型首次在网络安全方面被评为中等风险。

总体来看,Deep Research在各个阶段的表现都非常好,缓解后的模型在SWE-Lancer上表现最佳,解决了大约46-49%的IC SWE任务和47-51%的SWE Manager任务。OpenAI提供了更多评估细节和结果,以供进一步参考。

原文和模型


【原文链接】 阅读原文 [ 2563字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...