标签:MoE模型
激进架构,400万上下文,彻底开源:MiniMax-01有点“Transformer时刻”的味道了
大模型公司MiniMax于1月15日发布了新模型系列MiniMax-01,该系列包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax-01是一个总参...
DeepSeek-V3外网刷屏爆火,训练成本只有600万,把AI大佬都炸出来了
DeepSeek V3是一款参数量为671B的MoE模型,激活37B,在14.8T高质量token上进行了预训练。该模型以其低成本和开源特性受到关注,其训练细节在53页的论文中被详...
国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开
DeepSeek V3,一个参数量为671B的MoE模型,已全面开源。该模型在14.8T高质量token上进行了预训练,激活37B参数,并在多项测评中达到开源SOTA,超越了Llama 3....
腾讯混元康战辉:将开源大模型训练代码,但数据开源意义不大
腾讯混元近期宣布开源两款大模型:“混元 Large”和“Hunyuan3D-1.0”。混元 Large 是开源领域参数规模最大、效果最好的MoE模型,拥有389B总参数量和52B激活参数...
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
字节跳动豆包大模型团队最近提出了一种名为超连接(Hyper-Connections)的新方法,旨在替代传统的残差连接,以解决梯度消失和表示崩溃之间的权衡问题。超连接...
腾讯开源“最大”大模型:如果你也相信MoE,那咱们就是好朋友
腾讯在人工智能领域的核心信念集中在开源和混合专家模型(MoE)上。公司通过开源一系列模型,包括混元文生图模型等,以追赶大模型领域的发展,并吸引社区参与...
大模型如何进入业务?百川智能推出“1+3”产品矩阵,核心模型打差异化
百川智能于10月31日推出了一站式大模型商业化解决方案,包括1+3产品矩阵,旨在帮助企业将专有数据与百川智能的全链路优质训练数据混合,对Baichuan4-Turbo和B...
中国最大开源MoE模型,255B参数无条件免费商用,元象发布
元象XVERSE发布了中国最大的MoE(Mixture of Experts)开源模型XVERSE-MoE-A36B,该模型拥有255B的总参数和36B的激活参数,实现了在不显著增加训练和推理计算...
100B 的「跨级」跃升!元象发布最大 MoE 开源大模型,「高性能全家桶」系列全部免费
元象 XVERSE 于 9 月 13 日发布了中国最大的 MoE(Mixture of Experts)开源模型 XVERSE-MoE-A36B,该模型拥有 255B 的总参数和 36B 的激活参数,实现了与 10...
MoE也有Scaling Law,「百万专家」利用率近100%!DeepMind华人挑战MoE极限
谷歌DeepMind的研究科学家Xu Owen He最近提出了一种名为PEER(参数高效专家检索)的新技术,该技术能够将混合专家(MoE)模型的专家数量扩展到百万级别,同时...
1
2