耗资1.3万，ASU团队揭秘o1推理王者！碾压所有LLM成本超高，关键还会PUA

AIGC动态1年前 (2024)发布 AIera

2,876 0 0

耗资1.3万，ASU团队揭秘o1推理王者！碾压所有LLM成本超高，关键还会PUA

文章摘要

ASU团队的最新研究对OpenAI的新型大推理模型o1-preview进行了全面评估，发现其在推理规划能力方面表现卓越，但成本高昂。研究使用了PlanBench测试基准，结果显示o1-preview在规划任务上大幅领先其他模型，但仍未完全通过测试。尽管o1-preview的推理能力超越了多数近似检索的普通LLM，成为近似「推理器」，但其推理成本高达42美元/100个实例。

o1模型与传统LLM的主要区别在于，它被训练成为近似「推理器」，而传统LLM被视为「检索器」。o1通过强化学习训练，引导思维链推理轨迹的创建、整理和最终选择。在原始Blocksworld测试上，o1实现了高达97.8%的正确率，但在问题规模扩大时，性能显著下降。

研究还发现，o1在识别不可解实例方面存在问题，其假阴性率达到了11.5%。此外，o1的成本效益和正确性保证也是问题，其API费用用户无法控制，且模型为黑盒系统，降低了信任度。

尽管o1在准确性上超越了LLM，但在成本、推理时间、保证和性能权衡上，仅是一种粗粒度的评估选择。相比之下，经典的规划器Fast Downward在数据集上能够以更少的时间、计算和成本实现100%准确率。LLM-Modulo系统可能是一种更安全、更便宜的方法，即将一个较小、较快的LLM与一个可靠的验证器循环运行，确保输出正确的解决方案。

o1在给出错误答案时，有时会提供富有创意但毫无意义的解释，这表明模型在创造性解释方面存在问题。总的来说，o1在推理规划方面开辟了新天地，但仍未达到终极AI大脑的水平。