文章摘要
【关 键 词】 Dualformer、人工智能、路径规划、推理效率、自适应调整
Meta的田渊栋团队最近推出了一款名为Dualformer的新型人工智能模型,该模型能够将快速和慢速思考方式无缝结合,以提高性能并降低成本。Dualformer通过在推理轨迹和最终答案上进行训练,并采用特定策略舍弃部分轨迹,模仿慢思考的同时实现快思考的效率。在慢思考模式下,Dualformer的最优解率达到97.6%,推理步骤减少了45.5%。在自动切换快慢思考模式下,最优率也达到了96.6%,推理步骤减少了59.9%。
Dualformer建立在Searchformer的基础上,后者是一个在路径规划任务上表现出色的模型。Dualformer通过在随机推理轨迹数据上训练,并在训练过程中根据定制的丢弃策略舍弃部分结构,学习更简洁有效的搜索和推理过程。这种灵活的推理模式设计使得模型能够根据不同任务需求和场景进行自适应调整。
在迷宫和推箱子游戏等路径规划任务中,Dualformer的表现显著优于仅基于解决方案数据训练的Solution-Only模型。在30×30迷宫任务中,Dualformer在97.6%的情况下可以达到最优解,同时推理步骤减少了45.5%。此外,将该方法推广到Mistral-7B和Llama3-8B上,在Aug-MATH数据集上,模型的表现也有所提升。
该研究由田渊栋领导,他是Meta FAIR的研究科学家主任,领导LLM推理、规划和决策小组。研究团队还包括Qinqing Zheng、Sainbayar Sukhbaatar和Michael Rabbat等FAIR的工程师和科学家。论文已发表在arXiv上。
原文和模型
【原文链接】 阅读原文 [ 1014字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆