标签:MoE层优化

Cursor为Blackwell从零构建MXFP8内核,MoE层提速3.5倍,端到端训练提速1.5倍

在构建更强大 AI 模型的竞赛中,传统做法是升级硬件,但 Cursor 发现释放下一代 GPU 潜力并非易事。从 NVIDIA 的 Hopper H100s 升级到 Blackwell B200s 后,...