标签：开源SOTA

DeepSeek-V3外网刷屏爆火，训练成本只有600万，把AI大佬都炸出来了

DeepSeek V3是一款参数量为671B的MoE模型，激活37B，在14.8T高质量token上进行了预训练。该模型以其低成本和开源特性受到关注，其训练细节在53页的论文中被详...

AIGC动态

8个月前

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

DeepSeek V3，一个参数量为671B的MoE模型，已全面开源。该模型在14.8T高质量token上进行了预训练，激活37B参数，并在多项测评中达到开源SOTA，超越了Llama 3....

AIGC动态

8个月前