强化学习 | 学习AIGC

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

强化学习已成为推动人工智能向通用人工智能（AGI）发展的关键技术节点，但奖励模型的设计与训练一直是制约模型能力提升的瓶颈。当前，大语言模型通过Next Tok...

AIGC动态

24分钟前

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

POLAR是一种全新的奖励模型，采用了对比学习范式，通过衡量模型回复与参考答案的「距离」来给出精细分数。这一创新方法不仅减少了对海量人工标注的依赖，还展...

AIGC动态

2小时前

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

在大语言模型的后训练阶段，强化学习是提升模型能力、对齐人类偏好的核心方法，但奖励模型的设计与训练仍是关键瓶颈。当前主流方法包括“基于偏好的奖励建模”...

AIGC动态

2天前

高考数学142分，多学科推理MMMU跑分76.0直逼人类专家，Skywork R1V 3.0用强化学习探索跨学科推理

在电影《银翼杀手2049》中，虚拟伴侣Joi通过全息投影与现实世界无缝互动，展现了AI在未来可能具备的高度智能和情感理解能力。然而，现实中要实现这种科幻场景...

AIGC动态

3天前

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

大语言模型（LLM）的生成能力虽然强大，但其输出是否符合人类偏好需要依赖奖励模型（Reward Model, RM）的精准评判。奖励模型在大模型训练中扮演着关键角色，...

AIGC动态

1周前

RL缩放王炸！DeepSWE开源AI Agent登顶榜首，训练方法、权重大公开

著名大模型训练平台Together.ai与Agentica联合开源了创新的AI Agent框架DeepSWE。该框架基于阿里最新开源的Qwen3-32B模型，完全通过强化学习训练而成。DeepSW...

AI-Agent

1周前

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

大规模预训练和微调的模式在机器学习领域取得了显著成功，但在强化学习（RL）中的应用仍面临挑战。强化学习需要对时间和意图进行推理，传统方法在处理长时间...

AIGC动态

2周前

Kimi Researcher团队自述：Agent不是缝合怪，它就是模型（附内测名额）

月之暗面（Moonshot AI）推出了其首个AI Agent产品——Kimi Researcher，该产品定位为一个能够生成带引用来源的深度研究报告的AI Agent，而不仅仅是一个简单的...

AI-Agent

2周前

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

过去几年，基于人类偏好的强化学习（RLHF）成为大语言模型（LLM）后训练阶段的关键技术，显著提升了模型的对齐能力，并拓展了其在推理增强、智能体交互等场景...

AI-Agent

2周前

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

强化学习已成为大型语言模型（LLM）技术栈的核心组成部分，其应用范围从模型对齐、推理训练扩展到新兴的智能体强化学习（Agentic RL）。Unsloth团队近期发布...

AI-Agent

3周前

标签：强化学习

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

高考数学142分，多学科推理MMMU跑分76.0直逼人类专家，Skywork R1V 3.0用强化学习探索跨学科推理

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

RL缩放王炸！DeepSWE开源AI Agent登顶榜首，训练方法、权重大公开

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

Kimi Researcher团队自述：Agent不是缝合怪，它就是模型（附内测名额）

重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

热门网址

标签：强化学习

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址