大模型

LLM,VLM,模型

DeepSeek为什么采用与主流大模型不一样的MoE架构?一文搞懂什么是MoE模型

混合专家模型(MoE)通过选择性激活子模型的方式显著提升计算效率,与传统Transformer架构形成鲜明对比。MoE模型每次计算仅激活5.5%的总参数量,而Qwen、LLam...

第四届终身学习智能体会议(CoLLAs)主题征稿中

CoLLAs 2025将关注持续学习领域的核心问题,推动人工智能系统在其生命周期中不断适应和进化。会议探讨的关键主题包括终身学习的理论研究、持续学习范式(如增...

「鲶鱼」DeepSeek 正在搅动上下游

DeepSeek的出现引发了AI领域的剧烈震荡,其低成本、高效能的大模型训练和推理方式推动了开源潮流,并给整个行业带来了深远影响。通过引入MoE架构和FP8混合精...

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

许主洪的加入标志着阿里在AI To C业务上的重要布局。作为一名IEEE Fellow和新加坡管理大学终身教授,他凭借深厚的学术积累与产业实践经验,将推动阿里的多模...

满血版DeepSeek-R1,五大平台白嫖攻略!

由于访问量激增和网络攻击,DeepSeek官网及其相关服务近期频繁出现不稳定状况,包括官网、APP和API在内的多项服务均受到不同程度的影响。作为替代方案,各大...

3秒变导演!DeepSeek生成AI视频堪比大片

利用AI生成高质量视频内容正在成为现实,填空式提问法为初学者提供了一种简单有效的入门方式。通过向AI工具如DeepSeek输入基础描述,并借助身份特征、环境氛...

Deepseek R1可能找到了超越人类的办法

本文围绕AI发展历程,从AlphaGo到ChatGPT,再到DeepSeek R1,阐述了AI底层原理的突破及其对AGI/ASI的重要性。1. AlphaGo突破人类上限:1997年深蓝击败国际象...

国产 DeepSeek V3 被秒成”前浪”?谷歌开放最强 Gemini 2.0 全家桶:速度快60倍,上下文还长16倍!

谷歌发布了 Gemini 2.0,这是一套功能强大的人工智能模型,包含多个版本以满足不同需求。Gemini 2.0 Flash 是主打高效性和低延迟的主力模型,具备处理多模态...

创历史!DeepSeek获16大国产AI芯片力挺,中国智算的半壁江山都出动了

DeepSeek作为国产AI大模型,在短时间内获得了广泛的产业支持。首先,16家国产AI芯片企业相继宣布适配或上架DeepSeek模型服务,其中包括华为昇腾、沐曦、天数...

华人研究团队揭秘:DeepSeek-R1-Zero或许并不存在「顿悟时刻」

近期研究围绕类 R1-Zero 的训练展开,聚焦于模型自我反思能力及响应长度变化的机制。研究表明,“顿悟时刻”并非如以往所认为出现在强化学习(RL)训练后,而是...
1 202 203 204 205 206 318