强化学习 | 第 4 页

新“SOTA”推理模型避战Qwen和R1？欧版OpenAI被喷麻了

Mistral AI发布了其首款推理模型Magistral，该模型旨在提升多语言推理能力和可解释性。Magistral分为两个版本：Magistral Small，一个24B参数的开源权重版本...

AIGC动态

3个月前

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

语言模型对强化学习中的奖励噪音表现出显著的鲁棒性，即使奖励信号被部分翻转，模型在下游任务中的表现也不会显著下降。研究者发现，强化学习对下游任务的提...

AIGC动态

3个月前

图灵巨擘RL教父齐聚，机器人秀拳脚嗨翻全场！「悟界」首发引爆物理AGI

智源大会作为AI领域的顶级盛会，汇聚了全球顶尖学者和科技巨头，围绕AI前沿技术与未来发展展开深度探讨。图灵奖得主Yoshua Bengio指出，AI规划能力正以每七个...

AIGC动态

3个月前

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

在大模型竞赛日益激烈的背景下，强化学习后训练（RL后训练）已成为突破大语言模型（LLM）性能瓶颈的关键路径。OpenAI o1、DeepSeek-R1等模型的成功，均得益于...

AIGC动态

3个月前

真实联网搜索Agent，7B媲美满血R1，华为盘古DeepDiver给出开域信息获取新解法

华为诺亚方舟实验室提出的Pangu DeepDiver模型通过Search Intensity Scaling（SIS）技术，实现了大型语言模型（LLM）与搜索引擎的自主交互，显著提升了7B参数...

AI-Agent

3个月前

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

西北大学与Google、谷歌DeepMind团队提出了一种新的强化学习方法——贝叶斯自适应强化学习（BARL），旨在解决传统强化学习（RL）在反思探索方面的局限性。传统R...

AIGC动态

3个月前

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

随着OpenAI的o1/o3和Deepseek-R1等具备强大推理能力的大语言模型相继问世，学界普遍采用「监督微调 + 强化学习」的两阶段训练范式。这种范式在纯文本领域取得...

AIGC动态

3个月前

阿里开源自主搜索AI Agent，搜论文、网站资讯无所不能

今天凌晨，阿里巴巴开源了创新自主搜索AI Agent——WebAgent。搜索信息在学术研究、商业决策和日常生活中至关重要，但传统信息检索系统难以满足复杂需求。WebAg...

AI-Agent

3个月前

微软副总裁X上「开课」，连更关于RL的一切，LLM从业者必读

微软副总裁 Nando de Freitas 在 X 平台上发布了一系列关于人工智能教育的帖子，内容涵盖大语言模型（LLM）的强化学习、扩散模型、流匹配等技术。他通过深入...

AIGC动态

4个月前

四位图灵奖掌舵，2025智源大会揭示AI进化新路径

2025年6月6日至7日，第七届北京智源大会将在中关村国家自主创新示范区展示中心举行。作为人工智能领域的顶级学术峰会，大会汇聚了全球顶尖研究者，分享最新成...

AIGC动态

4个月前

标签：强化学习

新“SOTA”推理模型避战Qwen和R1？欧版OpenAI被喷麻了

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

图灵巨擘RL教父齐聚，机器人秀拳脚嗨翻全场！「悟界」首发引爆物理AGI

RL后训练步入超节点时代！华为黑科技榨干算力，一张卡干俩活

真实联网搜索Agent，7B媲美满血R1，华为盘古DeepDiver给出开域信息获取新解法

首次解释LLM如何推理反思！西北大学谷歌新框架：引入贝叶斯自适应强化学习，数学推理全面提升

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

阿里开源自主搜索AI Agent，搜论文、网站资讯无所不能

微软副总裁X上「开课」，连更关于RL的一切，LLM从业者必读

四位图灵奖掌舵，2025智源大会揭示AI进化新路径

热门网址

标签：强化学习

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址