超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,编程能力暴增近31%

超越Claude 3.5紧追o1!DeepSeek-V3-Base开源,编程能力暴增近31%

 

文章摘要


【关 键 词】 DeepSeek-V3混合专家编程能力性能提升开源模型

DeepSeek AI公司在2024年底开源了其最新的混合专家(MoE)语言模型DeepSeek-V3-Base,该模型拥有685B参数,包含256个专家,并采用sigmoid路由方式,每次选取前8个专家。这一模型以其高稀疏性而著称,只有一小部分专家对任何给定输入是活跃的。网友反馈显示,API和聊天界面均已更新为DeepSeek-V3。

在性能方面,Aider多语言编程测评结果显示,DeepSeek-V3-Base在编程能力上仅次于OpenAI o1-2024-12-17 (high),超越了其他竞品模型及前代DeepSeek Chat V2.5。与V2.5相比,V3的编程性能从17.8%提升至48.4%,增长了近31%。LiveBench基准测试结果也显示,DeepSeek-V3在多个领域如整体、推理、编程等均展现出竞争力,超越了gemini-2.0-flash-exp和Claude 3.5 Sonnet等模型。

HuggingFace的数据科学家Vaibhav (VB) Srivastav总结了DeepSeek v3与v2版本的主要区别,包括词汇量、隐藏层大小、中间层大小、隐藏层数量、注意力头数量和最大位置嵌入等参数的增加,表明v3是v2的放大版本。此外,v3在模型评分函数方面采用了sigmoid函数,而v2使用的是softmax函数。

网友对DeepSeek-V3的开源表示热烈讨论,认为它将成为Claude 3.5的强劲对手,甚至在一定程度上可以取代Claude 3.5。同时,开源模型的快速发展也让人们期待2025年成为AI领域极为重要的一年。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 662字 | 3分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...