文章摘要
【关 键 词】 大语言模型、信息搜索、深度优化、AI安全、市场研究
OpenAI东京分部近日发布了一款新型大语言模型(LLM)——Deep Research。该模型突破了传统LLM的局限,能够像人类分析师一样逐步分解复杂任务,并在互联网上进行多轮信息搜索与验证,根据已有信息调整研究方向和策略,深入挖掘问题本质,直至找到最合适的答案。例如,在处理特定市场趋势研究任务时,Deep Research会通过关键词搜索获取初步信息,进一步查找相关行业报告、统计数据、专家观点等,进行对比分析,最终形成综合性研究报告。
Deep Research基于OpenAI的o3模型开发,针对特定任务进行了深度优化和精调。其关键技术是端到端强化学习,使模型能够从输入到输出进行整体学习和优化,规划和执行多步骤研究轨迹。面对复杂课题,Deep Research能像人类研究者一样制定研究计划,确定信息获取渠道,分析判断下一步研究方向。如发现偏差,能像经验丰富的研究者一样回溯,重新调整研究策略,确保得到准确有价值的结果。
Deep Research还打破了传统大模型的响应限制,允许模型花费5-30分钟甚至更长时间处理问题,使其有足够时间筛选、分析和整合海量网络信息,输出全面、深入、准确的研究成果。例如,在市场调研类任务中,模型可以收集不同地区、不同时间段的市场数据,进行更精准的市场趋势预测;在学术研究领域,能深入研读大量文献资料,挖掘不同研究间的潜在联系,为科研工作者提供有价值的研究思路。
Deep Research由多个模块组成,类似分层AI Agent协同工作。信息发现模块能快速定位各类信息源并提取有价值线索;信息综合模块整合不同渠道信息,识别逻辑关系,组织零散信息成有条理整体;推理模块运用逻辑推理、知识图谱等技术,对信息进行深入分析和推理;输出模块根据用户需求,将研究结果以不同格式输出。
在AI安全与规模中心的“人类的最后一次考试”中,Deep Research准确率达到26.6%,超过R1、o1、Grok2等知名开闭源模型。在Gaia测试的所有三个难度级别上,Deep Research都达到了新高度。OpenAI设计的一系列内部基准测试涵盖市场研究、学术研究、消费决策等多个实际应用场景,在专家级别任务中,Deep Research能完成专家需数小时才能完成的任务。Deep Research将很快给Pro用户使用,随后扩大至Plus和team等。
原文和模型
【原文链接】 阅读原文 [ 2383字 | 10分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★