DeepSeek最新论文解读:NSA,物美价廉的超长上下文方案
DeepSeek最新提出的原生稀疏注意力(NSA)机制解决了传统稀疏注意力技术在训练与推理阶段的割裂问题。传统方法通常只能在推理阶段应用稀疏注意力,导致模型能...
除了百万售价,华为「尊界」S800 到底「尊」在哪儿?
鸿蒙智行首款百万级豪车尊界S800的技术细节与市场定位正式公开,其核心目标是通过智能化技术重构豪华汽车的价值标准。华为常务董事余承东在发布会上强调,该...
突发,Grok-3免费上线!答对9.11和9.9谁大,1分攻克MIT积分难题
Grok-3的开放使用引发科技界广泛关注,其性能表现与争议成为焦点。作为首个宣称使用20万块GPU训练的大模型,Grok-3免费开放DeepSearch和Think两大模式,但在...
2025最强开发者盛宴倒计时,MIT顶级大神亲授秘籍!百亿招标等你拿
2025全球开发者先锋大会将于2月21日至23日在上海徐汇举办,聚焦人工智能技术在各行业的深度应用与创新突破。大会设置技术研讨与项目招标双轨并行机制,中国首...
技术大神授课,百亿AI项目招标,2025全球开发者先锋大会等你来
2025全球开发者先锋大会将于2月21-23日在上海举办,聚焦人工智能技术在各行业的深度应用与商业化落地。大会汇聚总额超百亿的AI项目招标,覆盖智能制造、医疗...
大语言模型系统评估新框架:微观指标构建方法论
大语言模型(LLM)的系统化评估面临独特挑战,需通过微观指标体系的构建实现持续优化。将LLM视为系统组件而非独立存在,其性能需结合实时监控、防护机制与业...
梁文锋、杨植麟同一天发论文“秀肌肉”,主题居然撞上了!下一代模型要来了?
2月18日,DeepSeek与月之暗面同时发布针对Transformer注意力机制改进的研究成果,聚焦于降低计算复杂度并提升长文本处理效率。这一技术竞争凸显了行业对高效...
物理直觉不再是人类专属?LeCun等新研究揭示AI可如何涌现出此能力
图灵奖得主Yann LeCun近期重申对自回归大语言模型(LLM)的批判立场,提出实现人类水平AI应聚焦世界模型研究。其团队最新成果表明,通过自然视频的自监督预训...
DeepSeek冲击之下,生成式AI如何加速科学研究?|钛媒体AGI
在世界互联网大会人工智能赋能科学研讨会上,多位专家就AI技术对科研领域的变革展开深入探讨。阿里巴巴集团副总裁叶杰平指出,当前AI大模型在科研全流程中展...
Nature认证DeepSeek成科研工具全能者,国内高校如何借力大模型?
近年来,大模型在科研领域的应用深度显著提升,DeepSeek系列模型因其开源、低成本和高性能特点受到全球科研界关注。科学家们纷纷涌向DeepSeek,这种模型已成...