续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

1,702 0 0

文章摘要

俄亥俄州立大学的研究团队提出了一种名为WebDreamer的新框架，该框架利用大型语言模型（LLM）作为世界模型，以预测网站上的交互结果，从而支持复杂环境中的规划。这项研究的核心在于使用GPT-4o来预测网站上操作的结果，旨在提高性能、安全性和效率。WebDreamer框架通过模拟可能的交互结果，减少了实际交互的开销，同时降低了安全风险，并能作为多种智能体的插件无缝工作。

WebDreamer的核心机制是“做梦”，即在采取行动前，智能体使用LLM预测每个可能步骤的结果，并以自然语言描述状态变化。然后，智能体会根据模拟结果评估与实现目标任务的距离，并执行最有可能实现目标的模拟行动。这一过程会反复进行，直到LLM确定目标已经实现。

在性能方面，WebDreamer在VisualWebArena和Mind2Web-live上的表现远超反应性基线模型。在效率上，与树搜索相比，WebDreamer只需要一半的交互次数。此外，WebDreamer还展现出更好的安全性和多功能集成的能力。研究者通过实验验证了WebDreamer的有效性，发现其在VWA数据集上实现了33.3%的相对性能提升，在Mind2Web-live数据集上提升了2.9%。尽管基于树搜索的方案在总体成功率方面更高，但WebDreamer提供了一种更灵活且适应性更强的替代方案。

WebDreamer的成功展示了LLM在模拟世界模型和规划中的应用潜力，为扩展语言智能体的推理时计算提供了新的视角。这项研究不仅推动了AI在复杂环境中的规划能力，也为未来智能体的发展提供了新的方向。