标签:强化学习

微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读

微软副总裁 Nando de Freitas 在 X 平台上发布了一系列关于人工智能教育的帖子,内容涵盖大语言模型(LLM)的强化学习、扩散模型、流匹配等技术。他通过深入...

四位图灵奖掌舵,2025智源大会揭示AI进化新路径

2025年6月6日至7日,第七届北京智源大会将在中关村国家自主创新示范区展示中心举行。作为人工智能领域的顶级学术峰会,大会汇聚了全球顶尖研究者,分享最新成...

图灵奖四巨擘共话AI未来,「双星交汇」引爆年度盛会!

2025年智源大会将于6月6日至7日在北京举行,作为人工智能领域的顶级学术峰会,大会汇聚了四位图灵奖得主以及来自全球顶尖科研院所和企业的专家学者,共同探讨...

四位图灵奖掌舵:2025智源大会揭示AI进化新路径

2025年6月6日至7日,第七届北京智源大会将在中关村国家自主创新示范区展示中心举行。作为人工智能领域的顶级学术峰会,大会汇聚全球顶尖研究者,分享最新成果...

通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API

阿里通义实验室最近开源了ZeroSearch,这是一个无需与真实搜索引擎交互的强化学习框架,旨在提升大模型的检索和推理能力。传统的强化学习方法依赖于真实搜索...

RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型(MRMs)在多模态大语言模型(MLLMs)的性能提升中扮演着关键角色,尤其在训练和评估阶段能够提供稳定的奖励信号。然而,尽管强化学习(RL)在...

微软开源新版ph4:媲美DeepSeek-R1,参数暴降48倍

微软近期在官网开源了三个新版Phi-4小参数模型,分别是Reasoning、Min-Reasoning和Reasoning-plus。这些模型的最大亮点之一是算力消耗极低,能够在消费级硬件...

Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈

朱哲清是一位坚定的强化学习(RL)信仰者,他早在2016年AlphaGo击败李世石时便意识到AI的潜力,并开始深入研究RL。尽管RL在随后的几年中经历了低谷,朱哲清始...

搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核

Cognition AI 近期开源了一款名为 Kevin-32B 的大模型,该模型通过强化学习技术专门用于编写 CUDA 内核。Kevin-32B 基于 QwQ-32B 模型,并在 KernelBench 数...

VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

复旦大学等机构在视频生成领域取得了显著进展,通过引入强化学习技术,优化了视频生成模型的效果。研究团队提出了Cockatiel方法,该方法在视频细粒度文本描述...
1 2 3 16