MoE模型 | 学习AIGC

刚刚，DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了！

DeepSeek在开源周连续发布核心技术成果，继首日开源MLA解码核FlashMLA后，次日推出专为混合专家系统（MoE）设计的通信库DeepEP。该库针对分布式训练中专家并...

AIGC动态

7个月前

DeepSeek为什么采用与主流大模型不一样的MoE架构？一文搞懂什么是MoE模型

混合专家模型（MoE）通过选择性激活子模型的方式显著提升计算效率，与传统Transformer架构形成鲜明对比。MoE模型每次计算仅激活5.5%的总参数量，而Qwen、LLam...

AIGC动态

7个月前

阿里除夕发布Qwen2.5-Max反超DeepSeek V3，一句话开发小游戏

阿里通义Qwen发布了新春节礼Qwen2.5-Max，这是一个超大规模的MoE模型，经过超过20万亿token的预训练数据和SFT+RLHF后训练方案的训练。在多个基准测试中，Qwen...

AIGC动态

8个月前

激进架构，400万上下文，彻底开源：MiniMax-01有点“Transformer时刻”的味道了

大模型公司MiniMax于1月15日发布了新模型系列MiniMax-01，该系列包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax-01是一个总参...

AIGC动态

8个月前

DeepSeek-V3外网刷屏爆火，训练成本只有600万，把AI大佬都炸出来了

DeepSeek V3是一款参数量为671B的MoE模型，激活37B，在14.8T高质量token上进行了预训练。该模型以其低成本和开源特性受到关注，其训练细节在53页的论文中被详...

AIGC动态

9个月前

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

DeepSeek V3，一个参数量为671B的MoE模型，已全面开源。该模型在14.8T高质量token上进行了预训练，激活37B参数，并在多项测评中达到开源SOTA，超越了Llama 3....

AIGC动态

9个月前

腾讯混元康战辉：将开源大模型训练代码，但数据开源意义不大

腾讯混元近期宣布开源两款大模型：“混元 Large”和“Hunyuan3D-1.0”。混元 Large 是开源领域参数规模最大、效果最好的MoE模型，拥有389B总参数量和52B激活参数...

AIGC动态

10个月前

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

字节跳动豆包大模型团队最近提出了一种名为超连接（Hyper-Connections）的新方法，旨在替代传统的残差连接，以解决梯度消失和表示崩溃之间的权衡问题。超连接...

AIGC动态

10个月前

腾讯开源“最大”大模型：如果你也相信MoE，那咱们就是好朋友

腾讯在人工智能领域的核心信念集中在开源和混合专家模型（MoE）上。公司通过开源一系列模型，包括混元文生图模型等，以追赶大模型领域的发展，并吸引社区参与...

AIGC动态

10个月前

大模型如何进入业务？百川智能推出“1+3”产品矩阵，核心模型打差异化

百川智能于10月31日推出了一站式大模型商业化解决方案，包括1+3产品矩阵，旨在帮助企业将专有数据与百川智能的全链路优质训练数据混合，对Baichuan4-Turbo和B...

AIGC动态

10个月前

标签：MoE模型

刚刚，DeepSeek开源MoE训练、推理EP通信库DeepEP，真太Open了！

DeepSeek为什么采用与主流大模型不一样的MoE架构？一文搞懂什么是MoE模型

阿里除夕发布Qwen2.5-Max反超DeepSeek V3，一句话开发小游戏

激进架构，400万上下文，彻底开源：MiniMax-01有点“Transformer时刻”的味道了

DeepSeek-V3外网刷屏爆火，训练成本只有600万，把AI大佬都炸出来了

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

腾讯混元康战辉：将开源大模型训练代码，但数据开源意义不大

字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

腾讯开源“最大”大模型：如果你也相信MoE，那咱们就是好朋友

大模型如何进入业务？百川智能推出“1+3”产品矩阵，核心模型打差异化

热门网址

标签：MoE模型

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址