标签:强化学习

微软开源新版ph4:媲美DeepSeek-R1,参数暴降48倍

微软近期在官网开源了三个新版Phi-4小参数模型,分别是Reasoning、Min-Reasoning和Reasoning-plus。这些模型的最大亮点之一是算力消耗极低,能够在消费级硬件...

Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈

朱哲清是一位坚定的强化学习(RL)信仰者,他早在2016年AlphaGo击败李世石时便意识到AI的潜力,并开始深入研究RL。尽管RL在随后的几年中经历了低谷,朱哲清始...

搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核

Cognition AI 近期开源了一款名为 Kevin-32B 的大模型,该模型通过强化学习技术专门用于编写 CUDA 内核。Kevin-32B 基于 QwQ-32B 模型,并在 KernelBench 数...

VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

复旦大学等机构在视频生成领域取得了显著进展,通过引入强化学习技术,优化了视频生成模型的效果。研究团队提出了Cockatiel方法,该方法在视频细粒度文本描述...

谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

大语言模型(LLMs)在智能体应用中的潜力引发了广泛关注,但其在决策场景中的表现却存在显著缺陷。谷歌DeepMind的研究者深入分析了LLMs在决策中的三种常见失...

深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙

DeepSeek-Prover-V2的发布标志着数学推理领域的一次重大突破。该模型通过递归+强化学习的训练方法,显著提升了其在形式化定理证明中的表现。DeepSeek-Prover-...

DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过

DeepSeek团队在五一劳动节期间发布了DeepSeek-Prover-V2,这是一款专为数学AI编程语言Lean 4打造的开源大语言模型,专注于形式化定理证明。该模型在定理证明...

强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏

近年来,大语言模型在推理能力方面取得了显著进展,尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习(RLVR)被认为是提升模型推理能力的关键技...

TTS和TTT已过时?TTRL横空出世,推理模型摆脱「标注数据」依赖,性能暴涨

在大语言模型(LLMs)竞争日益激烈的背景下,推理能力成为评估模型性能的关键指标。测试时缩放(TTS)作为一种新兴策略,通过优化推理过程(如多数投票、蒙特...

AI 智能体老“崩”?DeepSeek 前员工联手李飞飞等大佬开源新框架,教会模型真正推理

2025年被许多人视为“AI智能体元年”,然而当前大多数智能体仍处于实验阶段,尚未真正进入企业应用。李飞飞团队与多所大学及微软合作,推出了名为RAGEN的新系统...
1 2 3 4 5 6 18