DeepSeek V3.1 发布,更令人好奇的是UE8M0 FP8

AI-Agent6小时前发布 Si-Planet
77 0 0
DeepSeek V3.1 发布,更令人好奇的是UE8M0 FP8

 

文章摘要


【关 键 词】 DeepSeekFP8精度国产芯片软硬件协同模型适配

DeepSeek推出V3.1版本,具备混合推理架构、更高思考效率和更强Agent能力等亮点,其置顶留言提及的“UE8M0 FP8针对即将发布的下一代国产芯片设计”引发关注,这或预示国内AI行业进入软硬件协同新阶段。

在深度学习中,参数精度至关重要。参数是模型神经元间的“权重”,精度指用多少位二进制数记录参数。整数无法表示小数及极大极小值,于是有了浮点数,它将数字拆分为符号位、指数和尾数。FP32曾是计算机黄金标准,但大模型参数量级膨胀后,其显存占用大、训练时间长的弊端凸显。行业开始尝试降低精度,FP8应运而生。在大模型追求“规模胜过精度”的赛道上,FP8能在不显著牺牲模型效果的前提下,让吞吐量翻倍、显存占用减半,成为必然选择。

FP8本身并非彻底中立的国际标准。NVIDIA虽推动FP8规范化,推出E4M3和E5M2两种格式,但在自家GPU上加了很多“优化”,这些细节未写入统一标准,深度绑定在其硬件和软件栈中。其最新的Blackwell架构原生支持全新“微缩浮点格式”,使用MXFP8格式预训练效果最佳。而DeepSeek提到的“UE8M0 FP8”是一种变体格式,更接近极端的范围优先策略,几乎舍弃小数部分精度。这是因为国产GPU在底层电路和指令集设计上未完全兼容NVIDIA的FP8方案,直接照搬会导致数值不稳定、训练无法收敛。DeepSeek用“UE8M0”适配国产芯片硬件逻辑,是确保国产芯片能跑通的折中方案,实现了软硬件的“互相成就”。

目前,已有国产芯片支持FP8精度。如沐曦曦云C600芯片原生支持FP8精度,采用多精度混合算力架构;燧原科技的L600芯片采用训推一体架构,原生支持FP8低精度,与DeepSeek模型精度策略对齐。“UE8M0”像是一种信号,表明国产芯片厂商和大模型公司开始携手前行,大模型尝试与国产硬件对齐。

原文和模型


【原文链接】 阅读原文 [ 1976字 | 8分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...