强化学习 | 第 6 页

DeepSeek开源Prover-V2强推理模型，网友：奥数从没这么简单过

DeepSeek团队在五一劳动节期间发布了DeepSeek-Prover-V2，这是一款专为数学AI编程语言Lean 4打造的开源大语言模型，专注于形式化定理证明。该模型在定理证明...

AIGC动态

4个月前

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏

近年来，大语言模型在推理能力方面取得了显著进展，尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习（RLVR）被认为是提升模型推理能力的关键技...

AIGC动态

5个月前

TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能暴涨

在大语言模型（LLMs）竞争日益激烈的背景下，推理能力成为评估模型性能的关键指标。测试时缩放（TTS）作为一种新兴策略，通过优化推理过程（如多数投票、蒙特...

AIGC动态

5个月前

AI 智能体老“崩”？DeepSeek 前员工联手李飞飞等大佬开源新框架，教会模型真正推理

2025年被许多人视为“AI智能体元年”，然而当前大多数智能体仍处于实验阶段，尚未真正进入企业应用。李飞飞团队与多所大学及微软合作，推出了名为RAGEN的新系统...

AIGC动态

5个月前

高考考上985的AI来了！超强数理推理横扫真题，训练秘籍剑指AGI

昆仑万维最新发布的Skywork-R1V 2.0版本，标志着多模态推理模型的又一次重大突破。作为全球首个工业界多模态推理模型，R1V 2.0不仅在技术上实现了显著进化，...

AIGC动态

5个月前

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10

大规模强化学习在激发大型语言模型的复杂推理行为方面展现出显著效果，OpenAI 的 o1 系列和 DeepSeek-R1 的成功便是明证。然而，这些模型的核心训练方法在技...

AIGC动态

5个月前

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会「套公式」，却不会真推理

清华和上交的最新研究对当前“纯强化学习（RL）有利于提升模型推理能力”的主流观点提出了质疑。通过一系列实验，研究者发现引入强化学习的模型在某些任务中的...

AIGC动态

5个月前

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

扩散模型在推理任务中的表现正逐渐受到关注，尤其是通过强化学习（RL）方法的应用。传统上，自回归大语言模型（LLM）在推理任务中占据主导地位，但离散扩散大...

AIGC动态

5个月前

AI版本宝可梦冲榜上全球前10%！一次性「吃掉」10年47.5万场人类对战数据

德州大学奥斯汀分校的研究团队通过结合Transformer和离线强化学习技术，成功训练出一个能够在宝可梦对战中表现出色的AI智能体。该智能体完全依赖于人类历史对...

AIGC动态

5个月前

OpenAI爆出硬伤，强化学习是祸首！o3越强越「疯」，幻觉率狂飙

OpenAI最新发布的o3和o4-mini模型在编码能力上取得了显著进步，甚至在全球人类选手中位列TOP 200。然而，这些模型在生成内容时存在严重的幻觉问题，o3的幻觉...

AIGC动态

5个月前

标签：强化学习

DeepSeek开源Prover-V2强推理模型，网友：奥数从没这么简单过

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏

TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能暴涨

AI 智能体老“崩”？DeepSeek 前员工联手李飞飞等大佬开源新框架，教会模型真正推理

高考考上985的AI来了！超强数理推理横扫真题，训练秘籍剑指AGI

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10

RL 是推理神器？清华上交大最新研究指出：RL 让大模型更会「套公式」，却不会真推理

扩散LLM推理用上类GRPO强化学习！优于单独SFT，UCLA、Meta新框架d1开源

AI版本宝可梦冲榜上全球前10%！一次性「吃掉」10年47.5万场人类对战数据

OpenAI爆出硬伤，强化学习是祸首！o3越强越「疯」，幻觉率狂飙

热门网址

标签：强化学习

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址