文章摘要
【关 键 词】 人工智能、SWE-bench、模型评估、谷歌硬件、AI聊天机器人
OpenAI和谷歌在人工智能领域的竞争并未如外界预期那样激烈。OpenAI发布了一系列指标,作为其安全开发和部署前沿模型的方法的一部分,这些指标用于评估和预测模型的自主行动能力。其中,SWE-bench作为一个评估工具,可以测试大型语言模型解决实际软件问题的能力。尽管SWE-bench排行榜显示编码代理取得了显著进步,但OpenAI发现一些任务难以解决,导致模型能力被低估。因此,OpenAI与SWE-bench作者合作,发布了一个经过人工验证的SWE-bench子集,以提供更准确的评估。
SWE-bench的测试集基于GitHub上的开源Python仓库中已解决的问题,每个示例都有相关的拉取请求和单元测试。测试分为FAIL_TO_PASS和PASS_TO_PASS两种,前者用于验证解决方案的正确性,后者检查代码库中现有功能是否被破坏。然而,SWE-bench存在一些问题,如单元测试过于具体、问题描述不明确以及开发环境设置困难等。为了解决这些问题,OpenAI与专业软件开发人员进行了人工注释,筛选出500个无问题的样本,并发布了SWE-bench Verified版本。
与此同时,OpenAI首席执行官Sam Altman发布的一条推文引发了外界对新模型Strawberry的猜测。Strawberry项目旨在使人工智能能够自主浏览互联网,执行深度研究。尽管项目细节保密,但据称这是人工智能模型尚未解决的问题。然而,OpenAI并未直接回应有关Strawberry的问题。
谷歌在同一时期举行了“Made by Google 2024”硬件活动,发布了包括Pixel 9手机、Pixel Watch和Pixel Buds等新产品。这些产品均搭载谷歌自家的Tensor G4芯片,并支持紧急SOS和危机警报等功能。谷歌还改进了其AI聊天机器人Gemini,使其适用于更多设备,并在Android 15中推出了Gemini Live功能,允许用户与AI进行更自然的对话。
尽管外界对OpenAI和谷歌的AI发展充满期待,但目前双方的表现并未达到预期。OpenAI发布的SWE-bench Verified虽然提高了评估准确性,但并未带来重大突破。而谷歌的硬件发布和AI功能升级也没有特别亮眼之处。可以预见,两家公司在AI领域的竞争仍将继续。
原文和模型
【原文链接】 阅读原文 [ 3470字 | 14分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★