标签:推理模型

腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?

近年来,Transformer架构在自然语言处理领域取得了显著成就,但其计算复杂度和内存占用问题逐渐成为瓶颈。与此同时,Mamba作为一种新兴的状态空间模型(SSM)...

英伟达团队发布最新具身模型 Cosmos-Reason1,在物理世界推理中碾压 Qwen、GPT-4o 等多个 VLM 模型

英伟达团队在GTC大会上发布了新的物理世界大模型Cosmos-Reason1,该模型专注于提升AI系统与物理世界交互的推理能力。作为Cosmos系列的一部分,Cosmos-Reason1...

百度周末发布文心4.5和推理模型X1,已经两周年了啊。

百度最新发布的文心4.5和推理模型X1引起了广泛关注。文心4.5是一个原生多模态模型,能够理解音频、视频和图片,但不具备输出能力。相比之下,X1是一个推理模...

对话阿里国际站总裁张阔:AI能给30万亿美金的产业带来什么?

阿里国际站推出的AI搜索产品Accio,通过深度推理模型,能够为用户生成详尽的商业计划书,并提供采购建议和供应商链接。该产品于3月1日正式上线,展示了其在短...

阿里开源QwQ-32B,性能比肩R1。这是一次压倒性的创新。

阿里巴巴最新发布的推理模型QwQ-32B,以其320亿参数的规模,展现了与6710亿参数的DeepSeek-R1相媲美的性能。这一突破意味着,在更小的设备上运行更强大的推理...

阿里深夜开源推理模型QwQ-32B,性能比肩R1满血版。

阿里在凌晨发布了全新的推理模型QwQ-32B,这一模型在多个数据集上的表现令人震惊,尤其是在数学和代码领域,其性能甚至能与DeepSeek R1(671B)相媲美。QwQ-3...

从 R1 到 Sonnet 3.7,推理模型首轮竞赛中有哪些关键信号?

过去一个月,头部AI实验室密集发布了多个推理模型,标志着推理模型领域的第一轮竞争暂时告一段落。OpenAI、xAI和Anthropic分别推出了各自的顶尖模型:o3-mini...

多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%

近年来,DeepSeek R1、OpenAI o1/o3等大语言模型在数学和编程领域的推理能力取得显著进展,但在国际数学奥林匹克竞赛(IMO)组合问题、抽象推理语料库(ARC)...

火山引擎 DeepSeek 落地实践分享:企业如何用好推理模型?

DeepSeek R1模型的上线在业界引起了广泛关注,其在火山引擎的快速部署更是成为焦点。为了更好地理解DeepSeek R1模型的实际应用和商业化落地,Founder Park联...

马斯克20万块GPU炼出Grok-3,暴击DeepSeek R1数学屠榜!疯狂复仇OpenAI

xAI团队发布了Grok-3系列模型及配套工具,标志着大规模算力与模型能力结合的新里程碑。该模型在20万块GPU集群上完成训练,成为首个突破10万GPU同步训练规模的...
1 2 3 4