标签:开源SOTA

DeepSeek-V3外网刷屏爆火,训练成本只有600万,把AI大佬都炸出来了

DeepSeek V3是一款参数量为671B的MoE模型,激活37B,在14.8T高质量token上进行了预训练。该模型以其低成本和开源特性受到关注,其训练细节在53页的论文中被详...

国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开

DeepSeek V3,一个参数量为671B的MoE模型,已全面开源。该模型在14.8T高质量token上进行了预训练,激活37B参数,并在多项测评中达到开源SOTA,超越了Llama 3....