仅仅一天，Gemini就夺回了GPT-4o拿走的头名

AIGC动态10个月前发布 almosthuman2014

1,704 0 0

文章摘要

谷歌与OpenAI在人工智能领域的竞争愈发激烈。一周前，谷歌的Gemini-Exp-1114模型超越GPT-4o，成为Arena榜单的首位。然而，GPT-4o的更新很快重新夺回榜首。紧接着，谷歌的Gemini-Exp-1121又超越了GPT-4o。这种快速的位次变化引发了对大模型迭代速度的讨论，有人质疑是否将以“周”为单位。

谷歌工程师对这种快速变化表示嘲讽，暗示竞争的激烈程度。Gemini-Exp-1114和Gemini-Exp-1121目前在Google AI Studio上可用，前者主要改进了质量，后者则重点提升了编码、推理和视觉能力。这场竞争揭示了人工智能基准测试方法可能过于简化，导致模型评估不全面。例如，Gemini-Exp-1114在控制响应格式和长度后，表现下降至第四位，表明传统指标可能夸大了感知能力。

这种差异暴露了人工智能评估的根本问题：模型可能通过优化表面特征而非真正改进推理或可靠性来获得高分。对定量基准的关注可能导致不良激励，厂商可能针对特定测试场景优化模型，忽略安全性、可靠性和实用性等更广泛问题。例如，Gemini-Exp-1121在LiveBench上的数学和推理能力反而不如Gemini-Exp-1114。

在浏览器领域，OpenAI也在追赶谷歌。据报道，OpenAI正在考虑开发一款与ChatGPT集成的web浏览器，并推出了NLWeb搜索技术，以增强对旅游、食品、房地产和零售等行业的搜索。OpenAI已与多家网站和应用程序开发商讨论这款搜索产品，并聘请了谷歌Chrome团队创始成员Ben Goodger等前Chrome关键开发人员进行研发。

这一系列举措可能使OpenAI与谷歌在浏览器和搜索市场展开竞争。此前，OpenAI已通过SearchGPT进入搜索市场，并与苹果建立了合作伙伴关系。然而，目前尚不清楚OpenAI何时会推出浏览器，有报道称OpenAI距离推出浏览器还很远。谷歌在浏览器市场的主导地位在美国司法部要求其出售Chrome浏览器后变得岌岌可危。如果OpenAI成功推出新浏览器，将成为谷歌的最大竞争对手。