数学推理 | 学习AIGC

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

复刻DeepSeek - R1的长思维链推理使大模型强化学习新范式RLIF成为热门话题。UC Berkeley团队提出的新方法Intuitor，仅通过优化模型自己的信心，就能让大模型...

AIGC动态

4个月前

清华&通院推出”绝对零”训练法，零外部数据大模型自我博弈解锁推理能力

“绝对零”是一种通过自我博弈训练预训练大模型的新方法，旨在提升模型的推理能力。该方法由清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员提出...

AIGC动态

4个月前

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

DeepSeek-Prover-V2的发布标志着数学推理领域的一次重大突破。该模型通过递归+强化学习的训练方法，显著提升了其在形式化定理证明中的表现。DeepSeek-Prover-...

AIGC动态

4个月前

DeepSeek开源Prover-V2强推理模型，网友：奥数从没这么简单过

DeepSeek团队在五一劳动节期间发布了DeepSeek-Prover-V2，这是一款专为数学AI编程语言Lean 4打造的开源大语言模型，专注于形式化定理证明。该模型在定理证明...

AIGC动态

4个月前

谷歌等最新研究，合成数据可将大模型数学推理提升8倍

随着大模型如ChatGPT的快速发展，对高质量训练数据的需求呈指数级增长，预计最快将在2026年耗尽现有的300万亿tokens的公开数据集。为了解决这一问题，合成数...

AIGC动态

5个月前

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

多模态大模型在视觉理解方面表现出色，但在深度数学推理任务上往往表现不佳，尤其是参数量较小的模型。为了解决这一问题，东南大学、香港中文大学、蚂蚁集团...

AIGC动态

6个月前

微软首个多模态Phi-4问世，56亿参数秒杀GPT-4o！LoRA华人大佬带队

微软发布Phi-4系列两款新型模型——Phi-4-multimodal和Phi-4-mini，标志着小型语言模型（SLM）领域的重大突破。Phi-4-multimodal作为微软首个多模态模型，集成...

AIGC动态

7个月前

杭州95后学霸坐C位，Grok 3登顶App Store！Hinton高徒、多伦多华人博士领衔

Grok 3的发布标志着人工智能领域进入推理智能体时代。该模型在xAI的Colossus超级计算集群上训练，运算能力达到现有顶尖模型的10倍，通过20万块GPU的算力支持...

AIGC动态

7个月前

不蒸馏R1也能超越DeepSeek，上海 AI Lab 用RL突破数学推理极限

上海AI Lab针对大语言模型在数学推理任务中面临的稀疏奖励困境、局部正确陷阱及规模依赖魔咒，提出了基于结果奖励的强化学习新范式OREAL。该框架通过正样本模...

AIGC动态

7个月前

开源22万条DeepSeek R1的高质量数据！你也能复现DeepSeek了

DeepSeek-R1模型的开源引发了全球技术社区对模型复现的热潮，其中Hugging Face主导的Open R1项目成为焦点。该项目通过公开训练代码、评估工具和合成数据集，...

AIGC动态

7个月前

标签：数学推理

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

清华&通院推出”绝对零”训练法，零外部数据大模型自我博弈解锁推理能力

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

DeepSeek开源Prover-V2强推理模型，网友：奥数从没这么简单过

谷歌等最新研究，合成数据可将大模型数学推理提升8倍

240元打造擅长数学的多模态版R1，基于DeepSeek核心思想，两阶段训练提升推理能力至工业级应用标准

微软首个多模态Phi-4问世，56亿参数秒杀GPT-4o！LoRA华人大佬带队

杭州95后学霸坐C位，Grok 3登顶App Store！Hinton高徒、多伦多华人博士领衔

不蒸馏R1也能超越DeepSeek，上海 AI Lab 用RL突破数学推理极限

开源22万条DeepSeek R1的高质量数据！你也能复现DeepSeek了

热门网址

标签：数学推理

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址