DeepSeek R1有没有赶上OpenAI o1？八大场景测评结果出炉

AI-Agent7个月前发布 almosthuman2014

1,675 0 0

文章摘要

DeepSeek-R1推理模型以其出色的性能和较低的训练成本，在AI竞技场中与OpenAI的o1模型和o1 Pro模型展开激烈竞争。在科技媒体arstechnica资深编辑的对比测试中，DeepSeek-R1在创意写作、数学、指令遵循等多个领域的日常问题上，与OpenAI的模型进行了8场”擂台比拼”，最终以5:2:4的成绩领先。

在”老爸笑话”环节，DeepSeek-R1以其原创性和幽默感胜出。而在”Abraham ‘Hoops’ Lincoln”创意故事环节，DeepSeek-R1以其荒诞的创意和细节描述再次获胜。然而，在”另类藏头诗”环节，DeepSeek-R1因误解题目要求而失败，ChatGPT o1 Pro凭借正确理解任务而胜出。

在”历史颜色命名”环节，三个模型都正确指出了”品红”与Magenta镇的关系，ChatGPT o1 Pro凭借风格上的优势胜出。在”挑战巨型质数”环节，DeepSeek-R1是唯一给出精确答案的模型，引用了PrimeGrid和The Prime Pages的公开计算结果，确定第10亿个质数为22,801,763,489，而ChatGPT的两个模型则未能给出确切答案。

总体来看，DeepSeek-R1在多个测试环节展现出与OpenAI模型相媲美甚至更优的性能，证明了其在AI竞技场中的竞争力。同时，这些测试也揭示了不同模型在理解和处理日常问题上的差异和特点。