标签:强化学习
田渊栋和Sergey Levine参与开发新型RL算法,能通过多轮训练让智能体学会协作推理
强化学习在提升大型语言模型(LLM)能力的同时,自身也在不断进化。现实世界中的复杂任务通常需要一系列决策,而直接优化多轮目标(如成功率)是提升智能体性...
揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案
DeepSeek-V3-Base 在强化学习调优之前已经展现出「顿悟时刻」,这一现象引发了研究人员对预训练特性如何影响强化学习性能的深入探讨。研究发现,DeepSeek-V3-...
强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍
普林斯顿大学与华沙理工的研究表明,将对比强化学习(CRL)扩展到1000层可以显著提升性能,在某些机器人任务中性能提升高达50倍。这一发现挑战了传统观点,即...
万字探讨Agent发展真方向:模型即产品,Agent的未来要靠模型而不是Workflow
Alexander Doria,知名 AI 工程师和 Pleias 的联合创始人,近期发表了两篇文章,深入探讨了 AI 智能体的未来发展方向。他明确指出,未来的 AI 智能体将依赖于...
Atlas机器人越来越像人了!强化学习加持爬行、翻跟头、跳街舞,已安排进厂打工
波士顿动力的Atlas机器人近期展示了其最新的技术进步,标志着人形机器人领域的重要突破。从最初的液压驱动到如今的全电动AI增强版,Atlas不仅在外观和功能上...
波士顿动力真「翻」不过宇树、众擎!一觉醒来,全世界的机器人都在侧空翻
宇树机器人发布了一段视频,首次展示了人形机器人完成侧空翻的动作,引发了广泛关注。不到12小时后,波士顿动力也发布了一段视频,展示了其Atlas机器人不仅完...
比DeepSeek、o1高3倍!首创无服务器强化微调,只需十几个数据点,
知名大模型训练与开发平台Predibase发布了首个端到端强化微调平台(RFT),这一平台通过奖励函数和自定义函数实现持续强化学习,无需依赖大量标注数据。与传...
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
多模态大模型在视觉理解方面表现出色,但在深度数学推理任务上往往表现不佳,尤其是参数量较小的模型。为了解决这一问题,东南大学、香港中文大学、蚂蚁集团...
AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
Manus的出现将智能体推入AI格局的前列,尽管存在争议,但其工程创新仍被视为一种护城河。在AI智能体推理与决策研讨会(AIR 2025)上,多位学术界和工业界的研...
真正的AI智能体时代即将到来,我们发现了几点「苦涩的教训」
最近,智能体(Agent)在AI领域再次成为焦点。2025年1月,OpenAI发布了名为DeepResearch的o3模型变种,专门用于网页和文档搜索。该模型通过强化学习训练,具...