标签:强化学习

独家丨小鹏机器人团队“广招兵马”,原字节 Seed 陈杰已加入

小鹏汽车近年来在机器人领域的布局和投入备受关注。自2020年收购四足机器人团队Dogotix并成立鹏行智能以来,小鹏在机器人领域的探索逐步深入。鹏行智能在成立...

思维链之父跳槽Meta,不只因为1亿美元!离开OpenAI前泄天机

硅谷的AI人才争夺战愈演愈烈,Meta通过天价薪酬吸引顶尖人才,其中包括从OpenAI跳槽的华人AI科学家Jason Wei。Jason Wei在AI领域成就斐然,拥有多篇高引用论...

基于闪电注意力机制,创新高效开源大模型

MiniMax公司开源了基于闪电注意力机制的专家混合模型MiniMax-M1,该模型在架构、创新模块和训练框架上均实现了显著突破。MiniMax-M1总参数为4560亿,其中459...

打造全球首个强化学习云平台,九章云极是如何做到的?

人工智能领域正经历从被动响应的语言模型向具备自主决策能力的智能体模型的深刻转变,强化学习(RL)重新成为实现「感知-决策-行动」闭环的关键技术。诺贝尔...

最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?

强化学习(RL)领域正在经历一场潜在的变革,类似于语言模型在GPT-3出现时的飞跃。当前的RL模型虽然在特定任务上表现优异,但面临泛化能力差、难以适应新任务...

奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式

强化学习已成为推动人工智能向通用人工智能(AGI)发展的关键技术节点,但奖励模型的设计与训练一直是制约模型能力提升的瓶颈。当前,大语言模型通过Next Tok...

OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课

POLAR是一种全新的奖励模型,采用了对比学习范式,通过衡量模型回复与参考答案的「距离」来给出精细分数。这一创新方法不仅减少了对海量人工标注的依赖,还展...

奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式

在大语言模型的后训练阶段,强化学习是提升模型能力、对齐人类偏好的核心方法,但奖励模型的设计与训练仍是关键瓶颈。当前主流方法包括“基于偏好的奖励建模”...

高考数学142分,多学科推理MMMU跑分76.0直逼人类专家,Skywork R1V 3.0用强化学习探索跨学科推理

在电影《银翼杀手2049》中,虚拟伴侣Joi通过全息投影与现实世界无缝互动,展现了AI在未来可能具备的高度智能和情感理解能力。然而,现实中要实现这种科幻场景...

人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破

大语言模型(LLM)的生成能力虽然强大,但其输出是否符合人类偏好需要依赖奖励模型(Reward Model, RM)的精准评判。奖励模型在大模型训练中扮演着关键角色,...
1 2 3 19