仅仅一天,Gemini就夺回了GPT-4o拿走的头名
文章摘要
【关 键 词】 AI竞争、模型迭代、基准测试、浏览器竞争、搜索技术
谷歌与OpenAI在人工智能领域的竞争愈发激烈。一周前,谷歌的Gemini-Exp-1114模型超越GPT-4o,成为Arena榜单的首位。然而,GPT-4o的更新很快重新夺回榜首。紧接着,谷歌的Gemini-Exp-1121又超越了GPT-4o。这种快速的位次变化引发了对大模型迭代速度的讨论,有人质疑是否将以“周”为单位。
谷歌工程师对这种快速变化表示嘲讽,暗示竞争的激烈程度。Gemini-Exp-1114和Gemini-Exp-1121目前在Google AI Studio上可用,前者主要改进了质量,后者则重点提升了编码、推理和视觉能力。这场竞争揭示了人工智能基准测试方法可能过于简化,导致模型评估不全面。例如,Gemini-Exp-1114在控制响应格式和长度后,表现下降至第四位,表明传统指标可能夸大了感知能力。
这种差异暴露了人工智能评估的根本问题:模型可能通过优化表面特征而非真正改进推理或可靠性来获得高分。对定量基准的关注可能导致不良激励,厂商可能针对特定测试场景优化模型,忽略安全性、可靠性和实用性等更广泛问题。例如,Gemini-Exp-1121在LiveBench上的数学和推理能力反而不如Gemini-Exp-1114。
在浏览器领域,OpenAI也在追赶谷歌。据报道,OpenAI正在考虑开发一款与ChatGPT集成的web浏览器,并推出了NLWeb搜索技术,以增强对旅游、食品、房地产和零售等行业的搜索。OpenAI已与多家网站和应用程序开发商讨论这款搜索产品,并聘请了谷歌Chrome团队创始成员Ben Goodger等前Chrome关键开发人员进行研发。
这一系列举措可能使OpenAI与谷歌在浏览器和搜索市场展开竞争。此前,OpenAI已通过SearchGPT进入搜索市场,并与苹果建立了合作伙伴关系。然而,目前尚不清楚OpenAI何时会推出浏览器,有报道称OpenAI距离推出浏览器还很远。谷歌在浏览器市场的主导地位在美国司法部要求其出售Chrome浏览器后变得岌岌可危。如果OpenAI成功推出新浏览器,将成为谷歌的最大竞争对手。
原文和模型
【原文链接】 阅读原文 [ 1548字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆