标签:强化学习
万字探讨Agent发展真方向:模型即产品,Agent的未来要靠模型而不是Workflow
Alexander Doria,知名 AI 工程师和 Pleias 的联合创始人,近期发表了两篇文章,深入探讨了 AI 智能体的未来发展方向。他明确指出,未来的 AI 智能体将依赖于...
Atlas机器人越来越像人了!强化学习加持爬行、翻跟头、跳街舞,已安排进厂打工
波士顿动力的Atlas机器人近期展示了其最新的技术进步,标志着人形机器人领域的重要突破。从最初的液压驱动到如今的全电动AI增强版,Atlas不仅在外观和功能上...
波士顿动力真「翻」不过宇树、众擎!一觉醒来,全世界的机器人都在侧空翻
宇树机器人发布了一段视频,首次展示了人形机器人完成侧空翻的动作,引发了广泛关注。不到12小时后,波士顿动力也发布了一段视频,展示了其Atlas机器人不仅完...
比DeepSeek、o1高3倍!首创无服务器强化微调,只需十几个数据点,
知名大模型训练与开发平台Predibase发布了首个端到端强化微调平台(RFT),这一平台通过奖励函数和自定义函数实现持续强化学习,无需依赖大量标注数据。与传...
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
多模态大模型在视觉理解方面表现出色,但在深度数学推理任务上往往表现不佳,尤其是参数量较小的模型。为了解决这一问题,东南大学、香港中文大学、蚂蚁集团...
AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
Manus的出现将智能体推入AI格局的前列,尽管存在争议,但其工程创新仍被视为一种护城河。在AI智能体推理与决策研讨会(AIR 2025)上,多位学术界和工业界的研...
真正的AI智能体时代即将到来,我们发现了几点「苦涩的教训」
最近,智能体(Agent)在AI领域再次成为焦点。2025年1月,OpenAI发布了名为DeepResearch的o3模型变种,专门用于网页和文档搜索。该模型通过强化学习训练,具...
字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露
字节跳动旗下的豆包大模型团队近期在 arXiv 上发布了一篇技术报告,详细介绍了其文生图模型 Seedream 2.0 的技术细节。该模型于去年 12 月上线至豆包 APP 和...
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
Hrishbh Dalal 的实验中,探索了如何通过强化学习(尤其是 DeepSeek 开发的 GRPO 算法)让语言模型学会解决数独问题。数独作为一种需要结构化思维、空间推理...
图灵奖的获奖者们,担心成为 AI 界的「奥本海默」
2024年图灵奖授予了安德鲁·巴托和理查德·萨顿,两位在强化学习领域做出杰出贡献的科学家。他们的研究成果为AlphaGo和ChatGPT等突破性技术奠定了基础。然而,...