标签:强化学习

VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

复旦大学等机构在视频生成领域取得了显著进展,通过引入强化学习技术,优化了视频生成模型的效果。研究团队提出了Cockatiel方法,该方法在视频细粒度文本描述...

谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

大语言模型(LLMs)在智能体应用中的潜力引发了广泛关注,但其在决策场景中的表现却存在显著缺陷。谷歌DeepMind的研究者深入分析了LLMs在决策中的三种常见失...

深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

DeepSeek-Prover-V2的发布标志着数学推理领域的一次重大突破。该模型通过递归+强化学习的训练方法,显著提升了其在形式化定理证明中的表现。DeepSeek-Prover-...

DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过

DeepSeek团队在五一劳动节期间发布了DeepSeek-Prover-V2,这是一款专为数学AI编程语言Lean 4打造的开源大语言模型,专注于形式化定理证明。该模型在定理证明...

强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏

近年来,大语言模型在推理能力方面取得了显著进展,尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习(RLVR)被认为是提升模型推理能力的关键技...

TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨

在大语言模型(LLMs)竞争日益激烈的背景下,推理能力成为评估模型性能的关键指标。测试时缩放(TTS)作为一种新兴策略,通过优化推理过程(如多数投票、蒙特...

AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理

2025年被许多人视为“AI智能体元年”,然而当前大多数智能体仍处于实验阶段,尚未真正进入企业应用。李飞飞团队与多所大学及微软合作,推出了名为RAGEN的新系统...

高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI

昆仑万维最新发布的Skywork-R1V 2.0版本,标志着多模态推理模型的又一次重大突破。作为全球首个工业界多模态推理模型,R1V 2.0不仅在技术上实现了显著进化,...

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其1/10

大规模强化学习在激发大型语言模型的复杂推理行为方面展现出显著效果,OpenAI 的 o1 系列和 DeepSeek-R1 的成功便是明证。然而,这些模型的核心训练方法在技...

RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会 「套公式」,却不会真推理

清华和上交的最新研究对当前“纯强化学习(RL)有利于提升模型推理能力”的主流观点提出了质疑。通过一系列实验,研究者发现引入强化学习的模型在某些任务中的...
1 2 3 15