标签:推理

大语言模型离“数学证明高手”还有多远?斯坦福、伯克利、MIT 团队提出 IneqMath 评测标准

大语言模型(LLM)在生成看似正确的结论时,往往缺乏严谨的推理过程,尤其是在数学证明领域。不等式问题因其结构简单、逻辑清晰,成为检验模型推理能力的理想...

腾讯AI Lab 提出解耦推理新框架,破解IMO 数学难题

近年来,大语言模型(LLM)在数学推理领域取得了显著进展,但在形式化数学证明方面却遇到了瓶颈。尽管LLM能够以超过80%的准确率生成非形式化的解题思路,但在...

微软开源新版Phi-4:推理效率暴涨10倍,笔记本可运行

微软近日开源了Phi-4家族的最新版本Phi-4-mini-flash-reasoning,该版本延续了Phi-4家族参数小、性能强的特点,专门为受算力、内存和延迟限制的场景设计,适...

高考数学142分,多学科推理MMMU跑分76.0直逼人类专家,Skywork R1V 3.0用强化学习探索跨学科推理

在电影《银翼杀手2049》中,虚拟伴侣Joi通过全息投影与现实世界无缝互动,展现了AI在未来可能具备的高度智能和情感理解能力。然而,现实中要实现这种科幻场景...

开源DeepSeek R1增强版:推理效率快200%,创新AoE架构

德国知名技术咨询公司TNG开源了DeepSeek R1的增强版DeepSeek-TNG-R1T2-Chimera。该模型基于DeepSeek的R1-0528、R1和V3-0324三大模型混合开发而成,并采用了一...

MoE那么大,几段代码就能稳稳推理 | 开源

华为最新开源项目Omni-Infer为超大规模混合专家网络模型(MoE)的推理提供了全面的架构、技术和代码支持。该项目旨在帮助企业用户实现高性能、易维护的推理部...

超越微软,全球第一!上交AI智能体炼成「Kaggle特级大师」,登顶OpenAI MLE-bench

上海交通大学人工智能学院Agents团队提出的AI专家智能体「ML-Master」在OpenAI发布的权威基准测试MLE-bench中取得了显著成绩,以29.3%的平均奖牌率位居榜首,...

只用2700万参数,这个推理模型超越了DeepSeek和Claude

大语言模型在复杂推理任务中面临任务分解复杂、数据需求大以及高延迟等问题,当前的思维链(CoT)技术存在局限性。为了解决这些问题,Sapient Intelligence的...

文心大模型 4.5 系列正式开源,涵盖 10 余款模型

百度于6月30日正式开源了文心大模型4.5系列,涵盖10款不同参数规模的模型,包括47B、3B激活参数的混合专家(MoE)模型和0.3B参数的稠密型模型。这些模型已在...

华为盘古大模型开源,推理方案、基础代码全公开!

华为今日宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型以及基于昇腾的模型推理技术。这一举措被视为华为推进昇腾生态战略的关键步骤...
1 2 3 10