标签:训练优化

昆仑万维开源 2 千亿稀疏大模型天工 MoE,全球首创能用 4090 推理

昆仑万维宣布开源其千亿稀疏大模型Skywork-MoE,此模型基于先前的Skywork-13B模型中间checkpoint扩展而成,是首个将MoE Upcycling技术应用并落地的开源千亿Mo...