UCL博士生创业一年，造出最强AI「ML工程师」，OpenAI盖戳认证

AI-Agent11个月前发布 almosthuman2014

2,254 0 0

文章摘要

【关键词】 机器学习、AIDE框架、Kaggle竞赛、AI智能体、AI安全

OpenAI最近推出了一个新的基准测试MLE-bench，旨在全面衡量自主的端到端机器学习工程。通过精选75个与机器学习工程相关的Kaggle竞赛题目，测试了几个顶级大模型的表现。结果显示，GPT-4o结合AIDE框架在竞赛中表现突出，平均获得的奖牌数量明显优于其他两个开源Agent框架。特别是当模型切换到OpenAI的o1-preview后，其表现翻倍，在约16.9%的比赛中达到了Kaggle铜牌以上的水平。

AIDE框架因其在代码优化方面的专业性，尤其在机器学习方面的特化，使其在这些竞赛中表现优于更通用的框架。AIDE的设计允许大模型在训练中获得的知识和技能得到更好的利用，提高解决问题的效率。AIDE的核心算法是“解空间树搜索”，包括解决方案生成器、评估器和基础解决方案选择器，这些组件共同工作，逐步探索和优化解决方案空间。

WecoAI是AIDE的主要作者之一，其联合创始人兼CEO蒋铮尧在接受采访时表示，一个好的自改进外循环（如AIDE）能显著提升前沿模型的能力。WecoAI成立于2023年5月，团队成员来自伦敦大学学院（UCL），专注于使用AI智能体来制造AI。AIDE在Kaggle数据科学比赛中的平均表现超过了50%的人类参赛者，展现了其在特定任务上的优化能力。

尽管AIDE在MLE-bench中表现出色，但也暴露出一些局限性，如未能很好地考虑机器性能和时间限制。蒋铮尧认为，这些大模型在处理需要长期规划和多步骤交互的复杂任务时仍存在不足。WecoAI计划加强与社区的合作，提升AIDE的性能，并关注AI安全。此外，WecoAI即将发布AI Function Builder，这是一个能根据自然语言任务描述生成AI功能并提供API接口的产品。

AIDE的成功和WecoAI的愿景体现了AI在推动科学研究方面的潜力，预示着未来AI智能体可能在科学共同体中发挥更大的作用。