标签:推理优化
国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开
DeepSeek V3,一个参数量为671B的MoE模型,已全面开源。该模型在14.8T高质量token上进行了预训练,激活37B参数,并在多项测评中达到开源SOTA,超越了Llama 3....
Ilya认错,Scaling Law崩了?自曝SSI秘密技术路线取代OpenAI
AI领域正面临重大转变,传统大模型的Scaling Law已遭遇瓶颈。OpenAI的下一代旗舰Orion和其他公司的大规模语言模型(LLM)如谷歌的Gemini 2.0和Anthropic的Opu...
全球最大开源模型再刷爆纪录!4800亿参数MoE击败Llama 3、Mixtral
Snowflake的Arctic模型以其128位专家和4800亿参数的规模,成为目前最大的开源模型。该模型基于Dense-MoE架构设计,由一个10B的稠密Transformer模型和128×3.66...
1
2