标签:强化学习

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

Mistral AI发布了其首款推理模型Magistral,该模型旨在提升多语言推理能力和可解释性。Magistral分为两个版本:Magistral Small,一个24B参数的开源权重版本...

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

语言模型对强化学习中的奖励噪音表现出显著的鲁棒性,即使奖励信号被部分翻转,模型在下游任务中的表现也不会显著下降。研究者发现,强化学习对下游任务的提...

图灵巨擘RL教父齐聚,机器人秀拳脚嗨翻全场!「悟界」首发引爆物理AGI

智源大会作为AI领域的顶级盛会,汇聚了全球顶尖学者和科技巨头,围绕AI前沿技术与未来发展展开深度探讨。图灵奖得主Yoshua Bengio指出,AI规划能力正以每七个...

RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活

在大模型竞赛日益激烈的背景下,强化学习后训练(RL后训练)已成为突破大语言模型(LLM)性能瓶颈的关键路径。OpenAI o1、DeepSeek-R1等模型的成功,均得益于...

真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法

华为诺亚方舟实验室提出的Pangu DeepDiver模型通过Search Intensity Scaling(SIS)技术,实现了大型语言模型(LLM)与搜索引擎的自主交互,显著提升了7B参数...

首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升

西北大学与Google、谷歌DeepMind团队提出了一种新的强化学习方法——贝叶斯自适应强化学习(BARL),旨在解决传统强化学习(RL)在反思探索方面的局限性。传统R...

SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高

随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...

阿里开源自主搜索AI Agent,搜论文、网站资讯无所不能

今天凌晨,阿里巴巴开源了创新自主搜索AI Agent——WebAgent。搜索信息在学术研究、商业决策和日常生活中至关重要,但传统信息检索系统难以满足复杂需求。WebAg...

微软副总裁X上「开课」,连更关于RL的一切,LLM从业者必读

微软副总裁 Nando de Freitas 在 X 平台上发布了一系列关于人工智能教育的帖子,内容涵盖大语言模型(LLM)的强化学习、扩散模型、流匹配等技术。他通过深入...

四位图灵奖掌舵,2025智源大会揭示AI进化新路径

2025年6月6日至7日,第七届北京智源大会将在中关村国家自主创新示范区展示中心举行。作为人工智能领域的顶级学术峰会,大会汇聚了全球顶尖研究者,分享最新成...
1 2 3 4 5 6 20