大模型

DeepSeek为什么采用与主流大模型不一样的MoE架构？一文搞懂什么是MoE模型

混合专家模型（MoE）通过选择性激活子模型的方式显著提升计算效率，与传统Transformer架构形成鲜明对比。MoE模型每次计算仅激活5.5%的总参数量，而Qwen、LLam...

AIGC动态

7个月前

CoLLAs 2025将关注持续学习领域的核心问题，推动人工智能系统在其生命周期中不断适应和进化。会议探讨的关键主题包括终身学习的理论研究、持续学习范式（如增...

AIGC动态

7个月前

DeepSeek的出现引发了AI领域的剧烈震荡，其低成本、高效能的大模型训练和推理方式推动了开源潮流，并给整个行业带来了深远影响。通过引入MoE架构和FP8混合精...

AIGC动态

7个月前

许主洪的加入标志着阿里在AI To C业务上的重要布局。作为一名IEEE Fellow和新加坡管理大学终身教授，他凭借深厚的学术积累与产业实践经验，将推动阿里的多模...

AI-Agent

7个月前

由于访问量激增和网络攻击，DeepSeek官网及其相关服务近期频繁出现不稳定状况，包括官网、APP和API在内的多项服务均受到不同程度的影响。作为替代方案，各大...

AIGC动态

7个月前

利用AI生成高质量视频内容正在成为现实，填空式提问法为初学者提供了一种简单有效的入门方式。通过向AI工具如DeepSeek输入基础描述，并借助身份特征、环境氛...

AIGC动态

7个月前

本文围绕AI发展历程，从AlphaGo到ChatGPT，再到DeepSeek R1，阐述了AI底层原理的突破及其对AGI/ASI的重要性。1. AlphaGo突破人类上限：1997年深蓝击败国际象...

AIGC动态

7个月前

谷歌发布了 Gemini 2.0，这是一套功能强大的人工智能模型，包含多个版本以满足不同需求。Gemini 2.0 Flash 是主打高效性和低延迟的主力模型，具备处理多模态...

AIGC动态

7个月前

DeepSeek作为国产AI大模型，在短时间内获得了广泛的产业支持。首先，16家国产AI芯片企业相继宣布适配或上架DeepSeek模型服务，其中包括华为昇腾、沐曦、天数...

AIGC动态

7个月前

近期研究围绕类 R1-Zero 的训练展开，聚焦于模型自我反思能力及响应长度变化的机制。研究表明，“顿悟时刻”并非如以往所认为出现在强化学习（RL）训练后，而是...

AIGC动态

7个月前