标签:FP8

破解国产芯片FP8及DeepSeek部署难题,清华团队开源“赤兔Chitu”大模型引擎

清华大学高性能计算研究所翟季冬教授团队与清程极智联合宣布开源大模型推理引擎“赤兔Chitu”,该引擎首次实现在非英伟达Hopper架构GPU及各类国产芯片上原生运...

H100利用率飙升至75%!英伟达亲自下场FlashAttention三代升级,比标准注意力快16倍

FlashAttention-3,一种用于大模型训练和推理的算法,经过一年的开发,已经推出了第三代。这一升级版本在训练速度上实现了1.5至2倍的提升,在FP16(16位浮点...