突发！DeepSeek开源新版V3，再次震惊国外

1,102 0 0

文章摘要

国内著名大模型平台DeepSeek近日开源了其V3模型的最新版本V3-0324，尽管发布过程极为低调，未在国内外社交媒体上进行宣传，但该模型迅速引起了广泛关注。V3-0324的最大亮点在于其强大的代码生成能力，仅需简单的文本提示即可快速开发网站和应用程序，其表现甚至可以媲美目前全球最强的闭源代码模型Claude 3.7 Sonnet的思维链版本。与Claude 3.7 Sonnet相比，V3-0324不仅开源且免费，推理效率也更高。有网友测试显示，V3-0324在不到60秒的时间内解开了一道密码谜题，而Claude 3.7 Sonnet花费了约5分钟却未能完成。

V3-0324的发布被认为是DeepSeek V3模型的一次迭代更新，类似于OpenAI对其GPT-4模型的持续优化。尽管模型编号未变，但V3-0324在创意写作任务中表现出色，速度更快，能够支持用户进行快速迭代。虽然模型在生成文本时可能存在幻觉和准确性不足的问题，但这并不构成重大障碍，因为人类编辑可以对其进行修正和批准。

V3-0324的代码生成能力得到了广泛验证。有网友使用该模型一次性开发了一个包含800多行代码的网站，且未出现任何错误。该模型仅用一个提示就完成了一个现代化登陆页面的编码，展示了其在编程任务中的高效性。此外，V3-0324还被用于构建复杂的动画脚本，进一步证明了其在代码生成领域的强大能力。

V3模型本身是一个拥有6710亿参数的专家混合模型（MoE），其中370亿参数处于激活状态。与传统的密集神经网络结构不同，V3采用了创新的负载均衡策略，通过引入“偏差项”动态调整专家负载，避免了路由崩溃现象。这一策略不仅提高了模型的计算效率，还显著减少了跨节点通信的开销，使得模型能够在保持高效计算的同时扩展到更多节点和专家。

根据国外开源评测平台kcores-llm-arena的最新测试数据，V3-0324的代码能力得分为328.3分，超过了普通版的Claude 3.7 Sonnet（322.3分），接近其思维链版本的334.8分。这一成绩进一步证明了V3-0324在代码生成领域的领先地位。总体而言，DeepSeek V3-0324的开源发布不仅展示了其在代码生成和负载均衡方面的创新，也为大模型领域的发展注入了新的活力。