耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA

AIGC动态4天前发布 AIera
74 0 0
耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA

 

文章摘要


【关 键 词】 推理模型成本评估性能对比创新解释AI大脑

ASU团队的最新研究对OpenAI的新型大推理模型o1-preview进行了全面评估,发现其在推理规划能力方面表现卓越,但成本高昂。研究使用了PlanBench测试基准,结果显示o1-preview在规划任务上大幅领先其他模型,但仍未完全通过测试。尽管o1-preview的推理能力超越了多数近似检索的普通LLM,成为近似「推理器」,但其推理成本高达42美元/100个实例。

o1模型与传统LLM的主要区别在于,它被训练成为近似「推理器」,而传统LLM被视为「检索器」。o1通过强化学习训练,引导思维链推理轨迹的创建、整理和最终选择。在原始Blocksworld测试上,o1实现了高达97.8%的正确率,但在问题规模扩大时,性能显著下降。

研究还发现,o1在识别不可解实例方面存在问题,其假阴性率达到了11.5%。此外,o1的成本效益和正确性保证也是问题,其API费用用户无法控制,且模型为黑盒系统,降低了信任度。

尽管o1在准确性上超越了LLM,但在成本、推理时间、保证和性能权衡上,仅是一种粗粒度的评估选择。相比之下,经典的规划器Fast Downward在数据集上能够以更少的时间、计算和成本实现100%准确率。LLM-Modulo系统可能是一种更安全、更便宜的方法,即将一个较小、较快的LLM与一个可靠的验证器循环运行,确保输出正确的解决方案。

o1在给出错误答案时,有时会提供富有创意但毫无意义的解释,这表明模型在创造性解释方面存在问题。总的来说,o1在推理规划方面开辟了新天地,但仍未达到终极AI大脑的水平。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 2853字 | 12分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...