标签:强化学习
SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
我们已进入大模型时代,大模型成为智能化基础设施核心,支撑多种下游应用,但多数模型是细分领域任务的专家,离通用人工智能(AGI)尚远,且存在“灾难性遗忘”...
AlphaGo作者领衔,8个机械臂协同干活0碰撞,DeepMind新作登Science子刊
RoboBallet是由DeepMind、Intrinsic AI和UCL等研究机构共同提出的成果,发表在Science子刊Science Robotics上。这一成果创新性地将图神经网络(GNN)用于强化...
小扎「梦之队」首批论文上线!LLM自举进化,单步性能狂飙22%
Meta超级实验室「Meta Superintelligence Labs,MSL」的三位成员上传ArXiv论文,探索利用强化学习(RL)高效微调大语言模型(LLM),使LLM在推理时实现迭代自...
科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
大语言模型的发展迅速,后训练的强化学习算法不断演进。从 PPO 到 GRPO 再到后续改进算法,都在不断提升模型性能与稳定性。后训练与强化学习的重要性:大语言...
在OpenAI炼Agent一年半,回国做出首个开源Agent训练框架!这个30岁清华天才却说:创业不是技术命
年仅 30 多岁的吴翼拥有众多亮眼标签,他创立的边塞科技 2024 年被蚂蚁收购,团队 4 年的规模化强化学习成果积累到开源项目 AReaL 中。在接受采访时,吴翼分...
马斯克xAI联创突然离职了
Igor Babuschkin,这位2023年和马斯克一同创办xAI的元老成员,近日宣告离职。在xAI工作期间,他领导工程团队,参与了从基础设施建设到产品和AI应用项目等重要...
独家丨小鹏机器人团队“广招兵马”,原字节 Seed 陈杰已加入
小鹏汽车近年来在机器人领域的布局和投入备受关注。自2020年收购四足机器人团队Dogotix并成立鹏行智能以来,小鹏在机器人领域的探索逐步深入。鹏行智能在成立...
思维链之父跳槽Meta,不只因为1亿美元!离开OpenAI前泄天机
硅谷的AI人才争夺战愈演愈烈,Meta通过天价薪酬吸引顶尖人才,其中包括从OpenAI跳槽的华人AI科学家Jason Wei。Jason Wei在AI领域成就斐然,拥有多篇高引用论...
基于闪电注意力机制,创新高效开源大模型
MiniMax公司开源了基于闪电注意力机制的专家混合模型MiniMax-M1,该模型在架构、创新模块和训练框架上均实现了显著突破。MiniMax-M1总参数为4560亿,其中459...
打造全球首个强化学习云平台,九章云极是如何做到的?
人工智能领域正经历从被动响应的语言模型向具备自主决策能力的智能体模型的深刻转变,强化学习(RL)重新成为实现「感知-决策-行动」闭环的关键技术。诺贝尔...