标签:专家混合
为什么 DeepSeek 大规模部署很便宜,本地很贵
AI模型的推理服务在吞吐量和延迟之间存在权衡,这种权衡的核心在于批处理大小的选择。GPU擅长执行大型矩阵乘法(GEMMs),因此同时计算一批补全比逐个处理tok...
ChatGPT幕后大佬、o1推理模型作者官宣离职!OpenAI大洗牌,后训练团队换将
OpenAI近期经历了一系列高层人事变动。o1推理模型的重要贡献者Luke Metz宣布离职,结束了他在OpenAI超过两年的工作生涯。与此同时,OpenAI任命了o1模型的另一...