DeepSeek R1有没有赶上OpenAI o1? 八大场景测评结果出炉

AI-Agent11小时前发布 almosthuman2014
73 0 0
DeepSeek R1有没有赶上OpenAI o1? 八大场景测评结果出炉

 

文章摘要


【关 键 词】 AI竞技性能对比创意写作质数挑战模型差异

DeepSeek-R1推理模型以其出色的性能和较低的训练成本,在AI竞技场中与OpenAI的o1模型和o1 Pro模型展开激烈竞争。在科技媒体arstechnica资深编辑的对比测试中,DeepSeek-R1在创意写作、数学、指令遵循等多个领域的日常问题上,与OpenAI的模型进行了8场”擂台比拼”,最终以5:2:4的成绩领先。

在”老爸笑话”环节,DeepSeek-R1以其原创性和幽默感胜出。而在”Abraham ‘Hoops’ Lincoln”创意故事环节,DeepSeek-R1以其荒诞的创意和细节描述再次获胜。然而,在”另类藏头诗”环节,DeepSeek-R1因误解题目要求而失败,ChatGPT o1 Pro凭借正确理解任务而胜出。

在”历史颜色命名”环节,三个模型都正确指出了”品红”与Magenta镇的关系,ChatGPT o1 Pro凭借风格上的优势胜出。在”挑战巨型质数”环节,DeepSeek-R1是唯一给出精确答案的模型,引用了PrimeGrid和The Prime Pages的公开计算结果,确定第10亿个质数为22,801,763,489,而ChatGPT的两个模型则未能给出确切答案。

总体来看,DeepSeek-R1在多个测试环节展现出与OpenAI模型相媲美甚至更优的性能,证明了其在AI竞技场中的竞争力。同时,这些测试也揭示了不同模型在理解和处理日常问题上的差异和特点。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2034字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...