刚刚，OpenAI又双叒叕鸽了！没等来“草莓”发布，只敷衍发了评测集，网友：拿这来抢谷歌发布会风头？

AIGC动态2年前 (2024)发布 ai-front

3,606 0 0

刚刚，OpenAI又双叒叕鸽了！没等来“草莓”发布，只敷衍发了评测集，网友：拿这来抢谷歌发布会风头？

文章摘要

【关键词】 人工智能、SWE-bench、模型评估、谷歌硬件、AI聊天机器人

OpenAI和谷歌在人工智能领域的竞争并未如外界预期那样激烈。OpenAI发布了一系列指标，作为其安全开发和部署前沿模型的方法的一部分，这些指标用于评估和预测模型的自主行动能力。其中，SWE-bench作为一个评估工具，可以测试大型语言模型解决实际软件问题的能力。尽管SWE-bench排行榜显示编码代理取得了显著进步，但OpenAI发现一些任务难以解决，导致模型能力被低估。因此，OpenAI与SWE-bench作者合作，发布了一个经过人工验证的SWE-bench子集，以提供更准确的评估。

SWE-bench的测试集基于GitHub上的开源Python仓库中已解决的问题，每个示例都有相关的拉取请求和单元测试。测试分为FAIL_TO_PASS和PASS_TO_PASS两种，前者用于验证解决方案的正确性，后者检查代码库中现有功能是否被破坏。然而，SWE-bench存在一些问题，如单元测试过于具体、问题描述不明确以及开发环境设置困难等。为了解决这些问题，OpenAI与专业软件开发人员进行了人工注释，筛选出500个无问题的样本，并发布了SWE-bench Verified版本。

与此同时，OpenAI首席执行官Sam Altman发布的一条推文引发了外界对新模型Strawberry的猜测。Strawberry项目旨在使人工智能能够自主浏览互联网，执行深度研究。尽管项目细节保密，但据称这是人工智能模型尚未解决的问题。然而，OpenAI并未直接回应有关Strawberry的问题。

谷歌在同一时期举行了“Made by Google 2024”硬件活动，发布了包括Pixel 9手机、Pixel Watch和Pixel Buds等新产品。这些产品均搭载谷歌自家的Tensor G4芯片，并支持紧急SOS和危机警报等功能。谷歌还改进了其AI聊天机器人Gemini，使其适用于更多设备，并在Android 15中推出了Gemini Live功能，允许用户与AI进行更自然的对话。

尽管外界对OpenAI和谷歌的AI发展充满期待，但目前双方的表现并未达到预期。OpenAI发布的SWE-bench Verified虽然提高了评估准确性，但并未带来重大突破。而谷歌的硬件发布和AI功能升级也没有特别亮眼之处。可以预见，两家公司在AI领域的竞争仍将继续。