标签:PlanBench

LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和

OpenAI最近发布的o1模型在通用推理能力方面取得了显著进展,但在规划能力方面仍有待提升。亚利桑那州立大学(ASU)的研究团队通过PlanBench基准测试评估了当...