超越微软,全球第一!上交AI智能体炼成「Kaggle特级大师」,登顶OpenAI MLE-bench

AI-Agent10小时前发布 AIera
75 0 0
超越微软,全球第一!上交AI智能体炼成「Kaggle特级大师」,登顶OpenAI MLE-bench

 

文章摘要


【关 键 词】 AI智能体机器学习探索推理

上海交通大学人工智能学院Agents团队提出的AI专家智能体「ML-Master」在OpenAI发布的权威基准测试MLE-bench中取得了显著成绩,以29.3%的平均奖牌率位居榜首,大幅领先微软的RD-Agent(22.4%)和OpenAI的AIDE系统(16.9%)。MLE-bench是衡量AI在机器学习工程(MLE)中表现的权威基准,精选了Kaggle上的75个相关竞赛,测试AI在模型训练、数据准备、实验运行等机器学习工程中的能力。ML-Master的成功标志着AI自主优化AI领域迈出了关键一步,达到了Kaggle比赛「Grandmaster」级的水平。

ML-Master通过创新的「探索推理深度融合」范式,模拟人类专家的认知策略,整合广泛探索与深度推理,显著提升了AI4AI(AI-for-AI)性能。AI4AI是利用AI技术自动化和优化AI系统自身的设计、训练和部署,其终极形态是实现具备自主演进能力的AI系统。ML-Master的成功验证了这一方向的可行性,类似于AlphaGo向AlphaZero的演进路径,展示了AI系统在自我演进上的潜力。

尽管大型语言模型(LLM)和自主智能体在AI4AI领域取得了显著进展,但现有方法仍面临核心挑战:探索与推理的割裂限制了性能提升。ML-Master通过统一的认知框架,模拟人类专家的开发流程,实现了探索与推理的有机协同。其核心在于平衡多轨迹探索(Balanced Multi-trajectory Exploration)和可控推理(Steerable Reasoning)两大模块,并通过自适应记忆机制(Adaptive Memory)实现两大模块的高效协同。这种深度融合机制使得ML-Master在探索效率和推理能力上均取得了显著提升。

在MLE-bench的全面评测中,ML-Master展现了卓越的性能。MLE-bench由75个来自Kaggle的真实机器学习任务组成,涵盖从代码编写、模型调参到结果提交的完整流程,是目前最权威、最贴近实际工程场景的AI测试之一。ML-Master仅在MLE-bench上探索学习900机器小时,即达成Kaggle比赛的Grandmaster级别,获取奖牌数位居20余万Kaggle参赛者中的259位。ML-Master在MLE-bench上实现了93.3%任务提交有效解,44.9%任务超半数人类参赛者,计算成本仅为基线方法一半,展现了其高效性和广泛覆盖能力。

ML-Master在不同难度级别任务中均展现出压倒性优势。在低难度任务中,ML-Master保持了48.5%的稳定领先优势;在中难度任务中,ML-Master的奖牌率提升了2.2倍,达到20.2%;在高难度任务中,ML-Master的奖牌率提升了30%,达到24.4%。这种卓越的泛化能力使得ML-Master能够在不同复杂度的挑战中保持高水平的稳定性。

ML-Master展现出强大的自我演进能力,在多轮任务执行过程中持续提升其解决方案质量。与初始版本相比,最终平均性能提升超过120%。该系统通过动态结合探索与推理机制,实现了针对任务特性的逐步适应与优化,体现出在AI4AI方向上的稳步推进潜力。ML-Master的突破验证了AI4AI的巨大潜力,其探索与推理融合的创新框架为AI自主开发和自我演进提供了新的方向。

展望未来,ML-Master的领先表现为AI4AI技术树立了新的标杆。随着技术的不断进步,AI的智能化、效率和应用前景将持续拓展。上海交通大学人工智能学院Agents团队后续将依托上海交通大学AI-X研究院,陆续推出覆盖各领域的专家智能体,构建有影响力的智能体生态体系,为人工智能技术的创新发展与广泛应用注入新动能。ML-Master的成功不仅展示了AI4AI的巨大潜力,也为AI自主开发和自我演进提供了新的方向。

原文和模型


【原文链接】 阅读原文 [ 2878字 | 12分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...