标签:强化学习
AI Agent 发展史:从 RL 驱动到大模型驱动 |AIR 2025
Manus的出现将智能体推入AI格局的前列,尽管存在争议,但其工程创新仍被视为一种护城河。在AI智能体推理与决策研讨会(AIR 2025)上,多位学术界和工业界的研...
真正的AI智能体时代即将到来,我们发现了几点「苦涩的教训」
最近,智能体(Agent)在AI领域再次成为焦点。2025年1月,OpenAI发布了名为DeepResearch的o3模型变种,专门用于网页和文档搜索。该模型通过强化学习训练,具...
字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露
字节跳动旗下的豆包大模型团队近期在 arXiv 上发布了一篇技术报告,详细介绍了其文生图模型 Seedream 2.0 的技术细节。该模型于去年 12 月上线至豆包 APP 和...
使用DeepSeek的GRPO,7B模型只需强化学习就能拿下数独
Hrishbh Dalal 的实验中,探索了如何通过强化学习(尤其是 DeepSeek 开发的 GRPO 算法)让语言模型学会解决数独问题。数独作为一种需要结构化思维、空间推理...
图灵奖的获奖者们,担心成为 AI 界的「奥本海默」
2024年图灵奖授予了安德鲁·巴托和理查德·萨顿,两位在强化学习领域做出杰出贡献的科学家。他们的研究成果为AlphaGo和ChatGPT等突破性技术奠定了基础。然而,...
阿里开源新模型:媲美DeepSeek-R1,参数大降20倍!
阿里巴巴近日开源了其最新的大模型QwQ-32B,该模型支持Apache 2.0开源协议,允许商业化使用。QwQ-32B在多个主流测试基准中表现优异,能够与DeepSeek的R1-671B...
图解 DeepSeek-R1
DeepSeek-R1 是人工智能领域的一个重要进展,特别是在机器学习研发社区中引起了广泛关注。该模型的核心特点在于其开放权重设计以及借鉴了 OpenAI O1 推理模型...
狂揽1.3亿美金!AlphaGo大神组队Gemini大牛,用RL打造超级智能,英伟达抢投
由DeepMind资深研究员Ioannis Antonoglou和Gemini核心贡献者Misha Laskin联合创立的Reflection AI,近日宣布完成1.3亿美元融资,估值达到5.55亿美元。这家初...
强化学习成帮凶,对抗攻击LLM有了新方法
威斯康星大学麦迪逊分校的研究团队最近发现,强化学习可以被用于实施黑盒逃避攻击,即通过生成对抗样本来欺骗机器学习模型。这一发现揭示了强化学习在攻击AI...
阿里千问QwQ-32B推理模型开源,比肩671B满血DeepSeek-R1!笔记本就能跑
阿里最新发布的QwQ-32B推理模型,凭借320亿参数的表现,成功追平了当前公认的最强开源模型DeepSeek-R1(6710亿参数),并在多项基准测试中超越了o1-mini模型...