英伟达的AI已经开始接管整个项目了?SATLUTION自主进化代码库登顶SAT竞赛

英伟达的AI已经开始接管整个项目了?SATLUTION自主进化代码库登顶SAT竞赛

 

文章摘要


【关 键 词】 AI应用SATLUTIONLLM智能体SAT求解性能提升

AI在软件开发领域的应用取得了重要进展,NVIDIA Research的研究人员提出的SATLUTION框架,将LLM代码进化能力从“算法内核”扩展到“完整代码库”规模,在布尔可满足性(SAT)问题上超越人类世界冠军。

SATLUTION框架通过协调LLM智能体,在严格的正确性验证和分布式运行时反馈的指导下,对SAT求解器的代码库进行迭代优化,同时同步“自我进化”其进化策略与规则。基于2024年SAT竞赛的代码库与基准,该框架进化出的求解器在2025年竞赛中击败人类设计的冠军,在2024年基准测试集上也超越两届冠军。

SATLUTION围绕LLM智能体、动态规则系统以及验证与反馈循环构建。双智能体架构由规划智能体和编码智能体协同工作,规划智能体负责高层次战略制定,编码智能体执行具体开发任务。规则系统为智能体探索提供引导,减少无效尝试,且规则库能动态演进,提升框架效率和鲁棒性。验证与评估流程严格,新生成的求解器需经过两阶段验证,通过后在集群上进行并行评估,为智能体提供实时性能反馈。

实验结果显示,SATLUTION在70个进化周期中性能提升稳健。最初迭代进展迅速,随后放缓但仍持续优化,约第50次迭代时超越2025年人类设计冠军,第70次迭代结束时超越所有比较基准求解器,且过程稳定无严重性能衰退。整个实验成本低于20000美元,相比人类专家开发求解器,SATLUTION在数周内便取得超越顶尖人类水平的成果。

原文和模型


【原文链接】 阅读原文 [ 1934字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...