优化 | 学习AIGC

碾压DeepSeek V3！阿里开源新版Qwen-3，屠榜级断层第一

阿里巴巴今天凌晨开源了Qwen3系列的新版本Qwen3-235B-A22B-2507，这一版本在多个方面进行了显著优化。与之前的混合思考模型不同，新版Qwen3回归了指令微调模...

AI-Agent

5个月前

碾压DeepSeek V3！开源AI Agent专属模型，1万亿参数、工具使用能力超强

月之暗面（MoonshotAI）近期开源了其最新的大模型Kimi-K2，这是一个混合专家模型，总参数达到1万亿，其中320亿参数处于激活状态，训练数据规模高达15.5Ttoken...

AI-Agent

5个月前

深夜开源首个万亿模型K2，压力给到OpenAI，Kimi时刻要来了？

月之暗面正式发布了 Kimi K2 大模型并开源，新模型同步上线并更新了 API，价格为 16 元人民币 / 百万 token 输出。此次发布赶在了全球大模型集中发布的风口浪...

AI-Agent

5个月前

杨植麟交卷，Kimi 万亿参数K2开源：Agent能力紧逼Anthropic，延展DeepSeek，上手实测如何？

月之暗面在2025年7月11日深夜悄然开源了Kimi K2模型，这一举动标志着其在人工智能领域的重要进展。Kimi K2是一个万亿参数规模的混合专家（MoE）模型，激活参...

AI-Agent

5个月前

MoE那么大，几段代码就能稳稳推理 | 开源

华为最新开源项目Omni-Infer为超大规模混合专家网络模型（MoE）的推理提供了全面的架构、技术和代码支持。该项目旨在帮助企业用户实现高性能、易维护的推理部...

AIGC动态

6个月前

华为盘古大模型开源，推理方案、基础代码全公开！

华为今日宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型以及基于昇腾的模型推理技术。这一举措被视为华为推进昇腾生态战略的关键步骤...

AIGC动态

6个月前

2G 内存跑 Gemma 3n 完整版！全球首个 10B 内模型杀疯 LMArena：1300 分碾压记录

谷歌正式发布了Gemma 3n完整版，这是一款面向开发者的开源大模型，具备输入图像、音频和视频的能力，并支持文本输出。Gemma 3n的设计亮点在于其天生多模态和...

AIGC动态

6个月前

微软刚发布Mu模型：支持Windows智能体，小参数跑出10倍性能

微软今天凌晨发布了创新小参数模型Mu，该模型仅有3.3亿参数，但其性能可以比肩之前发布的小参数模型Phi-3.5-mini，体量却比它小10倍左右。Mu在离线NPU的笔记...

AIGC动态

6个月前

Transformer八子初创：AI横扫NP难题竞赛，Top 2%选手竟是智能体！

Sakana AI与AtCoder合作构建了ALE-Bench，这是一个专注于NP难题的编程基准测试，旨在评估AI在复杂优化任务中的表现。NP难题，如物流路径选择、人员排班等，因...

AI-Agent

6个月前

Mamba核心作者新作：取代DeepSeek在用的注意力机制，专为推理打造

研究团队提出两种专为推理“量身定制”的注意力机制——Grouped-Tied Attention（GTA）和Grouped Latent Attention（GLA），旨在优化大语言模型的推理效率和硬件...

AIGC动态

7个月前

标签：优化

碾压DeepSeek V3！阿里开源新版Qwen-3，屠榜级断层第一

碾压DeepSeek V3！开源AI Agent专属模型，1万亿参数、工具使用能力超强

深夜开源首个万亿模型K2，压力给到OpenAI，Kimi时刻要来了？

杨植麟交卷，Kimi 万亿参数K2开源：Agent能力紧逼Anthropic，延展DeepSeek，上手实测如何？

MoE那么大，几段代码就能稳稳推理 | 开源

华为盘古大模型开源，推理方案、基础代码全公开！

2G 内存跑 Gemma 3n 完整版！全球首个 10B 内模型杀疯 LMArena：1300 分碾压记录

微软刚发布Mu模型：支持Windows智能体，小参数跑出10倍性能

Transformer八子初创：AI横扫NP难题竞赛，Top 2%选手竟是智能体！

Mamba核心作者新作：取代DeepSeek在用的注意力机制，专为推理打造

热门网址

标签：优化

Trae-AI IDE

讯飞星辰

讯飞文书-办公助手

有言AI-视频创作

热门网址