标签:数学推理

清华&通院推出”绝对零”训练法,零外部数据大模型自我博弈解锁推理能力

“绝对零”是一种通过自我博弈训练预训练大模型的新方法,旨在提升模型的推理能力。该方法由清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员提出...

深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

DeepSeek-Prover-V2的发布标志着数学推理领域的一次重大突破。该模型通过递归+强化学习的训练方法,显著提升了其在形式化定理证明中的表现。DeepSeek-Prover-...

DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过

DeepSeek团队在五一劳动节期间发布了DeepSeek-Prover-V2,这是一款专为数学AI编程语言Lean 4打造的开源大语言模型,专注于形式化定理证明。该模型在定理证明...

谷歌等最新研究,合成数据可将大模型数学推理提升8倍

随着大模型如ChatGPT的快速发展,对高质量训练数据的需求呈指数级增长,预计最快将在2026年耗尽现有的300万亿tokens的公开数据集。为了解决这一问题,合成数...

240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准

多模态大模型在视觉理解方面表现出色,但在深度数学推理任务上往往表现不佳,尤其是参数量较小的模型。为了解决这一问题,东南大学、香港中文大学、蚂蚁集团...

微软首个多模态Phi-4问世,56亿参数秒杀GPT-4o!LoRA华人大佬带队

微软发布Phi-4系列两款新型模型——Phi-4-multimodal和Phi-4-mini,标志着小型语言模型(SLM)领域的重大突破。Phi-4-multimodal作为微软首个多模态模型,集成...

杭州95后学霸坐C位,Grok 3登顶App Store!Hinton高徒、多伦多华人博士领衔

Grok 3的发布标志着人工智能领域进入推理智能体时代。该模型在xAI的Colossus超级计算集群上训练,运算能力达到现有顶尖模型的10倍,通过20万块GPU的算力支持...

不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限

上海AI Lab针对大语言模型在数学推理任务中面临的稀疏奖励困境、局部正确陷阱及规模依赖魔咒,提出了基于结果奖励的强化学习新范式OREAL。该框架通过正样本模...

开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了

DeepSeek-R1模型的开源引发了全球技术社区对模型复现的热潮,其中Hugging Face主导的Open R1项目成为焦点。该项目通过公开训练代码、评估工具和合成数据集,...

7B模型数学推理击穿o1,直逼全美20%尖子生!四轮进化,微软华人新作爆火

微软亚研院的全华人团队提出了一种名为rStar-Math的新算法,该算法通过三项技术创新,使得小型语言模型(SLM)在数学推理能力上取得了突破性进展,甚至超越了...
1 2 3