MoE架构 | 学习AIGC

1000万上下文+2880亿参数的Llama4，却让DeepSeek们松了一口气

Meta于4月5日发布了Llama4系列开源模型，包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。这三种模型分别针对不同的使用需求，展示了Meta在人工智能...

AIGC动态

4个月前

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛

清华大学KVCache.AI团队与趋境科技联合推出的KTransformers开源项目，通过技术创新实现了千亿参数模型在消费级硬件上的本地化部署。该项目最新版本支持24G显...

AIGC动态

6个月前

李开复：相对于美国硅谷巨头，中国AI大模型优势在于更快更低成本实现商业落地｜钛媒体AGI

零一万物公司近日推出了新的旗舰预训练模型Yi-Lightning，并在国际权威盲测榜单LMSYS上超越了OpenAI GPT-4o-2024-05-13和Anthropic Claude 3.5 Sonnet，排名...

AIGC动态

9个月前

微软「小而美」系列三连发！视觉小钢炮PK GPT-4o，MoE新秀力压Llama 3.1

微软发布了Phi 3.5系列的三款新模型，分别为Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct，这些模型在Hugging Face平台上可供下载...

AIGC动态

12个月前

100天后，阶跃星辰交出了第二份答卷

阶跃星辰公司在2024年全球开发者先锋大会上发布了Step系列通用大模型，包括千亿参数语言大模型Step-1、多模态大模型Step-1V和万亿参数MoE语言大模型Step-2预...

AIGC动态

1年前 (2024)

超级智能体生命力觉醒！可自我更新的AI来了，妈妈再也不用担心数据瓶颈难题

本文介绍了由智子引擎团队研发的多模态大模型Awaker 1.0，该模型在多模态任务中表现出色，特别是在数据生成和模型自主更新方面具有创新性。以下是对文章内容...

AIGC动态

1年前 (2024)

搞AI的是真没钱了

近日，一个由MIT、普林斯顿等研究机构的华人团队发布了自己的大模型JetMoE，声称仅需10万美元的成本就能训练出与数十亿美元成本的LLaMA2级别相媲美的大模型。...

AIGC动态

1年前 (2024)

全球最强开源模型一夜易主，1320亿参数推理飙升2倍！

Databricks公司发布了全球最强开源模型DBRX，超越了Llama 2、Mixtral和Grok-1。DBRX采用了细粒度MoE架构，每次输入仅使用360亿参数，实现了更快的每秒token吞...

AIGC动态

1年前 (2024)

独家支持MoE大模型一键训练，达观大模型管理平台两大全新功能发布

达观大模型管理平台推出曹植MoE模型达观大模型管理平台（DATAGRAND）推出了支持中文的曹植MoE模型，以满足用户多样化的模型管理需求。曹植MoE模型具有更大的...

AIGC动态

1年前 (2024)

深度 | 万模大战，杀出一匹黑马

文章总结：本文主要介绍了近期在多模态大模型领域的最新进展，包括LLaVA-NeXT、SPHINX-X、MobileVLM和CogCoM等多个模型。这些模型在性能、训练成本、多模态理...

AIGC动态

1年前 (2024)

标签：MoE架构

1000万上下文+2880亿参数的Llama4，却让DeepSeek们松了一口气

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛

李开复：相对于美国硅谷巨头，中国AI大模型优势在于更快更低成本实现商业落地｜钛媒体AGI

微软「小而美」系列三连发！视觉小钢炮PK GPT-4o，MoE新秀力压Llama 3.1

100天后，阶跃星辰交出了第二份答卷

超级智能体生命力觉醒！可自我更新的AI来了，妈妈再也不用担心数据瓶颈难题

搞AI的是真没钱了

全球最强开源模型一夜易主，1320亿参数推理飙升2倍！

独家支持MoE大模型一键训练，达观大模型管理平台两大全新功能发布

深度 | 万模大战，杀出一匹黑马

热门网址

标签：MoE架构

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址