Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?

AI-Agent9小时前发布 Founder Park
70 0 0
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?

 

文章摘要


【关 键 词】 大模型检索系统报告生成Agent测评

Deep Research 产品是一种以大模型能力为基础,结合检索与报告生成的端到端系统,能够对信息进行迭代搜索和分析,并生成详细报告。这类产品在输出深度和训练程度两大维度上呈现出显著差异。输出深度指产品在先前研究成果基础上进行迭代循环以收集更多信息,而训练程度则分为低训练程度(人工干预调整)和高训练程度(机器学习训练)。与传统 LLM Search 产品相比,Deep Research 被视为迈向 Agent 产品雏形的一次跃迁,具备必要的推理能力,并通过多次搜索和异步返回模式,显著提升信息推理深度。

通过对 Google、OpenAI、Perplexity、xAI 和 Manus 五款 Deep Research 产品的测评,发现它们在工具使用、指令遵循和报告输出等核心能力上表现各异。OpenAI 在小众内容检索任务中表现突出,成功定位冷门电影和最新书籍,展现了其强大的在线检索能力。然而,在数据分析任务中,所有产品均未能正确完成基于财报的因子计算,显示出在复杂数值分析方面的不足。编程任务中,Manus 表现最佳,提供了完整且美观的网页解决方案,而其他产品则存在不同程度的缺陷。

在指令遵循能力方面,五款产品在文献分析和旅游路线设计任务中表现参差不齐。OpenAI 和 xAI 在文献分析任务中部分遵循了指令,但均未完全满足要求。旅游路线设计任务中,Google、Manus 和 OpenAI 的方案接近满分,而 xAI 则因忽略用户需求而表现不佳。报告输出能力方面,OpenAI 和 Manus 在分析深度和图表展示上表现优异,而 Google 的报告则停留在基本事实整合层面,缺乏深入分析。

总体而言,Deep Research 产品作为 Agent 产品的初代形态,在工具使用和报告输出能力上取得了显著进展,但仍存在明显短板。OpenAI 在多个任务中综合表现最强,展现了其在长尾内容检索和报告分析方面的优势。然而,数据分析、编程等领域的潜力尚未完全实现。未来,随着技术的进一步发展,Deep Research 产品有望在 Agent 能力上迈向下一个阶梯,但这一过程仍需市场的耐心和持续的技术优化。

原文和模型


【原文链接】 阅读原文 [ 6426字 | 26分钟 ]
【原文作者】 Founder Park
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...