强化学习 | 第 5 页

图灵奖四巨擘共话AI未来，「双星交汇」引爆年度盛会！

2025年智源大会将于6月6日至7日在北京举行，作为人工智能领域的顶级学术峰会，大会汇聚了四位图灵奖得主以及来自全球顶尖科研院所和企业的专家学者，共同探讨...

AIGC动态

4个月前

四位图灵奖掌舵：2025智源大会揭示AI进化新路径

2025年6月6日至7日，第七届北京智源大会将在中关村国家自主创新示范区展示中心举行。作为人工智能领域的顶级学术峰会，大会汇聚全球顶尖研究者，分享最新成果...

AIGC动态

4个月前

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

阿里通义实验室最近开源了ZeroSearch，这是一个无需与真实搜索引擎交互的强化学习框架，旨在提升大模型的检索和推理能力。传统的强化学习方法依赖于真实搜索...

AIGC动态

4个月前

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型（MRMs）在多模态大语言模型（MLLMs）的性能提升中扮演着关键角色，尤其在训练和评估阶段能够提供稳定的奖励信号。然而，尽管强化学习（RL）在...

AIGC动态

4个月前

微软开源新版ph4：媲美DeepSeek-R1，参数暴降48倍

微软近期在官网开源了三个新版Phi-4小参数模型，分别是Reasoning、Min-Reasoning和Reasoning-plus。这些模型的最大亮点之一是算力消耗极低，能够在消费级硬件...

AIGC动态

4个月前

Pokee.ai 朱哲清：用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈

朱哲清是一位坚定的强化学习（RL）信仰者，他早在2016年AlphaGo击败李世石时便意识到AI的潜力，并开始深入研究RL。尽管RL在随后的几年中经历了低谷，朱哲清始...

AI-Agent

4个月前

搞不懂CUDA的人有救了，Devin开发商开源Kevin，强化学习生成CUDA内核

Cognition AI 近期开源了一款名为 Kevin-32B 的大模型，该模型通过强化学习技术专门用于编写 CUDA 内核。Kevin-32B 基于 QwQ-32B 模型，并在 KernelBench 数...

AIGC动态

4个月前

VDC+VBench双榜第一！强化学习打磨的国产视频大模型，超越Sora、Pika

复旦大学等机构在视频生成领域取得了显著进展，通过引入强化学习技术，优化了视频生成模型的效果。研究团队提出了Cockatiel方法，该方法在视频细粒度文本描述...

AIGC动态

4个月前

谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙

大语言模型（LLMs）在智能体应用中的潜力引发了广泛关注，但其在决策场景中的表现却存在显著缺陷。谷歌DeepMind的研究者深入分析了LLMs在决策中的三种常见失...

AIGC动态

4个月前

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

DeepSeek-Prover-V2的发布标志着数学推理领域的一次重大突破。该模型通过递归+强化学习的训练方法，显著提升了其在形式化定理证明中的表现。DeepSeek-Prover-...

AIGC动态

4个月前

标签：强化学习

图灵奖四巨擘共话AI未来，「双星交汇」引爆年度盛会！

四位图灵奖掌舵：2025智源大会揭示AI进化新路径

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

微软开源新版ph4：媲美DeepSeek-R1，参数暴降48倍

Pokee.ai 朱哲清：用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈

搞不懂CUDA的人有救了，Devin开发商开源Kevin，强化学习生成CUDA内核

VDC+VBench双榜第一！强化学习打磨的国产视频大模型，超越Sora、Pika

谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙

深夜突袭，DeepSeek-Prover-V2加冕数学王者！671B数学推理逆天狂飙

热门网址

标签：强化学习

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址