DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

1,755 0 0

文章摘要

【关键词】 DeepSeek V3、开源模型、AI竞技、逻辑陷阱、编码能力

国产AI模型DeepSeek V3在竞技场排名中表现出色，总体排名优于o1-mini，位列第七，并被认证为最强开源模型，也是唯一进入前十的开源模型。在困难提示、编程、数学和写作等单项测试中，DeepSeek V3全面超越了Claude 3.5 Sonnet。然而，当设置风格控制时，Claude 3.5 Sonnet在理解困难提示方面略胜一筹。

在实际测试中，DeepSeek V3在脑筋急转弯问题上表现出色，但在理解双关语方面不如Claude 3.5 Sonnet。在逻辑陷阱问题上，两者均未能成功应对。在考研数学真题测试中，DeepSeek V3详细解答并得出正确答案，而Claude 3.5 Sonnet虽然方法更简单，但答案错误。在编码能力测试中，DeepSeek V3在创建网站方面被认为优于Claude Sonnet 3.5。

此外，OpenAI的o1模型在“双十二”期间正式上线的满血版超越了o1-preview，空降总榜第一，并在除创意写作外的各个单项中均排名第一。这些AI模型的表现引发了用户间的热烈讨论，大家对于这些模型在实际使用中的感受和体验有着不同的看法。