“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?

AIGC动态1天前发布 QbitAI
215 0 0
“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?

 

文章摘要


【关 键 词】 DeepSeek-V3GPU优化硬件效率PTX语言AI自优化

英伟达近期面临新的竞争压力,源自DeepSeek-V3技术的最新进展。DeepSeek-V3通过深度优化,硬件效率显著超越Meta等竞争对手,主要得益于其从头开始重建的策略。韩国未来资产证券的研究指出,DeepSeek-V3在英伟达H800 GPU上训练时,对132个流式多处理器中的20个进行了通信优化,而非计算任务,有效绕过了硬件通信速度的限制。这一优化是通过英伟达的PTX(Parallel Thread Execution)语言实现的,PTX作为CUDA编程模型的中间表示,允许进行细粒度优化,如寄存器分配和Thread/Warp级别的调整。尽管PTX代码编写复杂且难以维护,DeepSeek-V3的实践显示了其优化GPU的能力。

尽管PTX是英伟达GPU架构中的技术,DeepSeek-V3的PTX级别优化并不意味着完全脱离CUDA生态,但确实表明了其优化其他GPU的能力。DeepSeek已经与AMD、华为等团队合作,支持其他硬件生态。此外,DeepSeek-R1编写的代码显著提升了大模型推理框架的运行速度,Llama.cpp项目中的新PR请求展示了DeepSeek-R1编写的代码,使用SIMD指令提升了WebAssembly在特定点积函数上的运行速度。这表明大模型现在能够编写良好的底层代码,甚至优化自己的代码,为AI自我改进提供了新的方向。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 964字 | 4分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...