标签:强化学习
请记住 MiniMax M1:MiniMax 用自己的方法追上R1们,直奔最强Agent模型而去
MiniMax M1 的发布标志着该公司在基础模型领域的一次重大突破。该模型采用了线性注意力 Lightning Attention 机制,并将其与传统的 softmax attention 相结合...
游戏教父 John Carmack:LLM 不是游戏的未来
John Carmack作为游戏开发领域的先驱,回顾了自己在Id Software、Armadillo Aerospace、Oculus和Keen Technologies的职业生涯,并分享了他对人工智能和强化学...
LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
近期,关于AI自我演进的研究和讨论逐渐增多,多个机构提出了不同的自我改进框架。例如,Sakana AI与不列颠哥伦比亚大学合作的「达尔文-哥德尔机(DGM)」、CM...
灵初智能陈源培:一个 00 后的机器人之梦
陈源培,灵初智能的联合创始人,作为00后技术创业者,凭借在具身智能领域的突出贡献,入选了福布斯“30 Under 30 – Asia – AI (2025)”榜单。尽管本科专业是土...
「Next-Token」范式改变!刚刚,强化学习预训练来了
在人工智能领域,强化学习(RL)长期以来被视为提升模型能力的辅助工具,而非核心方法。然而,近年来,强化学习在提升大语言模型(LLMs)能力方面的作用逐渐...
新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了
Mistral AI发布了其首款推理模型Magistral,该模型旨在提升多语言推理能力和可解释性。Magistral分为两个版本:Magistral Small,一个24B参数的开源权重版本...
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
语言模型对强化学习中的奖励噪音表现出显著的鲁棒性,即使奖励信号被部分翻转,模型在下游任务中的表现也不会显著下降。研究者发现,强化学习对下游任务的提...
图灵巨擘RL教父齐聚,机器人秀拳脚嗨翻全场!「悟界」首发引爆物理AGI
智源大会作为AI领域的顶级盛会,汇聚了全球顶尖学者和科技巨头,围绕AI前沿技术与未来发展展开深度探讨。图灵奖得主Yoshua Bengio指出,AI规划能力正以每七个...
RL后训练步入超节点时代!华为黑科技榨干算力,一张卡干俩活
在大模型竞赛日益激烈的背景下,强化学习后训练(RL后训练)已成为突破大语言模型(LLM)性能瓶颈的关键路径。OpenAI o1、DeepSeek-R1等模型的成功,均得益于...
真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法
华为诺亚方舟实验室提出的Pangu DeepDiver模型通过Search Intensity Scaling(SIS)技术,实现了大型语言模型(LLM)与搜索引擎的自主交互,显著提升了7B参数...