强化学习 | 第 4 页

微软开源新版ph4：媲美DeepSeek-R1，参数暴降48倍

微软近期在官网开源了三个新版Phi-4小参数模型，分别是Reasoning、Min-Reasoning和Reasoning-plus。这些模型的最大亮点之一是算力消耗极低，能够在消费级硬件...

AIGC动态

2个月前

Pokee.ai 朱哲清：用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈

朱哲清是一位坚定的强化学习（RL）信仰者，他早在2016年AlphaGo击败李世石时便意识到AI的潜力，并开始深入研究RL。尽管RL在随后的几年中经历了低谷，朱哲清始...

AI-Agent

2个月前

搞不懂CUDA的人有救了，Devin开发商开源Kevin，强化学习生成CUDA内核

Cognition AI 近期开源了一款名为 Kevin-32B 的大模型，该模型通过强化学习技术专门用于编写 CUDA 内核。Kevin-32B 基于 QwQ-32B 模型，并在 KernelBench 数...

AIGC动态

2个月前

VDC+VBench双榜第一！强化学习打磨的国产视频大模型，超越Sora、Pika

复旦大学等机构在视频生成领域取得了显著进展，通过引入强化学习技术，优化了视频生成模型的效果。研究团队提出了Cockatiel方法，该方法在视频细粒度文本描述...

AIGC动态

2个月前

谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙

大语言模型（LLMs）在智能体应用中的潜力引发了广泛关注，但其在决策场景中的表现却存在显著缺陷。谷歌DeepMind的研究者深入分析了LLMs在决策中的三种常见失...

AIGC动态

2个月前

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

DeepSeek-Prover-V2的发布标志着数学推理领域的一次重大突破。该模型通过递归+强化学习的训练方法，显著提升了其在形式化定理证明中的表现。DeepSeek-Prover-...

AIGC动态

2个月前

DeepSeek开源Prover-V2强推理模型，网友：奥数从没这么简单过

DeepSeek团队在五一劳动节期间发布了DeepSeek-Prover-V2，这是一款专为数学AI编程语言Lean 4打造的开源大语言模型，专注于形式化定理证明。该模型在定理证明...

AIGC动态

2个月前

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏

近年来，大语言模型在推理能力方面取得了显著进展，尤其是在处理数学和编程等复杂逻辑问题时。可验证奖励强化学习（RLVR）被认为是提升模型推理能力的关键技...

AIGC动态

2个月前

TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能暴涨

在大语言模型（LLMs）竞争日益激烈的背景下，推理能力成为评估模型性能的关键指标。测试时缩放（TTS）作为一种新兴策略，通过优化推理过程（如多数投票、蒙特...

AIGC动态

3个月前

AI 智能体老“崩”？DeepSeek 前员工联手李飞飞等大佬开源新框架，教会模型真正推理

2025年被许多人视为“AI智能体元年”，然而当前大多数智能体仍处于实验阶段，尚未真正进入企业应用。李飞飞团队与多所大学及微软合作，推出了名为RAGEN的新系统...

AIGC动态

3个月前

标签：强化学习

微软开源新版ph4：媲美DeepSeek-R1，参数暴降48倍

Pokee.ai 朱哲清：用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈

搞不懂CUDA的人有救了，Devin开发商开源Kevin，强化学习生成CUDA内核

VDC+VBench双榜第一！强化学习打磨的国产视频大模型，超越Sora、Pika

谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

DeepSeek开源Prover-V2强推理模型，网友：奥数从没这么简单过

强化学习被高估！清华上交：RL不能提升推理能力，新知识得靠蒸馏

TTS和TTT已过时？TTRL横空出世，推理模型摆脱「标注数据」依赖，性能暴涨

AI 智能体老“崩”？DeepSeek 前员工联手李飞飞等大佬开源新框架，教会模型真正推理

热门网址

标签：强化学习

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址