标签:大模型
杨植麟和梁文锋,论文撞车了
在马斯克发布Grok3的同一天,DeepSeek与月之暗面分别发布论文,针对Transformer架构的核心注意力机制提出创新方案。DeepSeek的原生稀疏注意力(NSA)通过语义...
全球首测!OpenAI开源SWELancer,大模型冲击100万年薪
OpenAI近日开源了名为SWE-Lancer的新型大模型代码能力评估基准,该测试基准通过真实软件开发任务和端到端测试方法,为评估大语言模型的工程实践能力提供了新...
马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI
xAI团队发布了Grok-3系列模型及配套工具,标志着大规模算力与模型能力结合的新里程碑。该模型在20万块GPU集群上完成训练,成为首个突破10万GPU同步训练规模的...
20万卡吞金兽 Grok 3 炸裂登场,卡帕西大神亲测:性能超过DeepSeek R1!马斯克:短期不开源
埃隆·马斯克旗下的人工智能公司xAI正式发布新一代AI模型Grok 3及其迷你版本Grok 3-mini,宣称这是迄今为止最强大的AI模型。Grok 3的核心突破在于首次将推理能...
DeepSeek掀低成本革命,中科院系黑马闯入全球TOP 10!破解高精度-低能耗困局
2025年中国大模型领域迎来重要突破,DeepSeek与YAYI-Ultra两大模型展现出显著技术优势。DeepSeek-R1通过算法优化突破算力限制,其深度推理能力为国内大模型行...
DeepSeek冲击之下,大模型六小强如何「回应」?
全球大模型格局因DeepSeek-R1的发布发生剧烈震荡,国内外科技企业与初创公司纷纷调整战略以应对冲击。国内六家头部大模型创业公司通过技术迭代、场景落地和生...
中国AI变局:腾讯、百度接入DeepSeek模型,字节反思,“大模型六虎”加速分化|钛媒体AGI
腾讯和百度近期在AI搜索领域动作频繁,引发行业关注。微信于2月16日灰度测试“AI搜索”功能,接入DeepSeek-R1模型,用户可通过对话框顶部入口免费使用深度思考...
基于百川大模型的首个AI儿科医生正式“上岗”:会诊结果可与专家高度吻合
2025年2月13日,北京儿童医院联合百川智能与小儿方健康科技研发的'AI儿科医生',在倪鑫院长领衔的14个科室专家团队共同参与下,完成了国内首次'AI+多学科专家...
大模型都喜欢拍马屁,Gemini最能拍!斯坦福:这不安全、不可靠
斯坦福大学研究人员针对大语言模型在交互中表现出的谄媚倾向展开系统性研究,揭示了该行为对关键应用领域的潜在风险。通过AMPS数学计算和MedQuad医疗建议数据...
百度文心全面开放,AI下半场的“开源”新局
2024年2月,全球大模型领域迎来重大转折:百度、OpenAI和谷歌相继宣布旗下大模型产品全面免费开放。这一系列动作标志着AI技术正从“稀缺资源”向“水电煤”式基础...