Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!

AI-Agent10小时前发布 AIera
56 0 0
Transformer八子初创:AI横扫NP难题竞赛,Top 2%选手竟是智能体!

 

文章摘要


【关 键 词】 编程AI优化NP难题竞赛

Sakana AI与AtCoder合作构建了ALE-Bench,这是一个专注于NP难题编程基准测试,旨在评估AI在复杂优化任务中的表现。NP难题,如物流路径选择、人员排班等,因其规模扩大后传统算法难以计算最优解而著称。ALE-Bench通过整合AtCoder启发式竞赛的题目,提供了一个评估AI推理与编程能力的平台。

研究团队设计了端到端的智能体ALE-Agent,基于Gemini 2.5 Pro,采用两大核心策略:通过Prompt提供领域知识,以及在推理阶段生成多样解法进行性能增强。ALE-Agent在AtCoder启发式竞赛中表现出色,排名第21,跻身前2%,展示了AI在解决现实世界优化问题方面的潜力。

ALE-Bench的构建基于AtCoder启发式竞赛(AHC),该竞赛以题目贴近实际、参赛者众多、支持长期赛和可视化工具等特色而闻名。AHC的题目类型多样,涵盖路径规划、任务调度等多个领域,对计算资源要求较高。研究团队在HuggingFace上发布了包含40道AHC题目的数据集,方便快速评估和测试。

ALE-Agent在算法工程领域的特定用途智能体探索中,提出了结合领域知识的提示策略和注重多样性的解空间搜索两种技术。在AHC046和AHC047两次实时竞赛中,ALE-Agent分别排名第154和第21,表现尤为出色。研究团队在ALE-Bench上对更广泛的组合优化问题进行了评估,结果显示ALE-Agent的表现达到了前6.8%,显著优于其他AI模型。

在识别复杂优化问题的算法改进方面,ALE-Agent训练得很有竞争力,经常应用领域知识来提升得分。在AHC047实时竞赛中,ALE-Agent取得了前2%的成绩,通过加速分数计算和改进邻域搜索等策略,显著提升了排名。研究者还发现,当前AI非常擅长使用模拟退火算法,这是AHC中常用的算法。

尽管取得了成功,ALE-Agent仍有一些局限性,如调试困难、时间超限和优化误区。未来改进方向包括更可靠的优化和智能体技术升级,目标是打造一个算法工程能力媲美甚至超越顶尖人类算法工程师的AI。

原文和模型


【原文链接】 阅读原文 [ 2981字 | 12分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...