标签:强化学习
阿里开源QwQ-32B,性能比肩R1。这是一次压倒性的创新。
阿里巴巴最新发布的推理模型QwQ-32B,以其320亿参数的规模,展现了与6710亿参数的DeepSeek-R1相媲美的性能。这一突破意味着,在更小的设备上运行更强大的推理...
全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理
由UCLA等机构组成的研究团队在全球首次实现了在20亿参数的非监督微调模型上进行多模态推理的突破,这一成果被称为DeepSeek-R1的「啊哈时刻」。研究团队在未经...
超越人类!DeepMind强化学习新突破:AI在「我的世界」中封神!
DeepMind研究团队通过改进基于Transformer世界模型的强化学习技术,在Craftax-classic游戏中实现了AI智能体对人类的超越。该智能体仅需100万步环境交互即可获...
DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码
总结来说,需要确认标签是否符合字数限制,并且摘要是否全面且符合格式要求。如果有错误,需要进行修正。
OpenAI Deep Research专访:Agent 的未来是端到端、强化学习微调
OpenAI Deep Research 和 Grok Deep Search 展示了人工智能在复杂任务处理上的重大突破。推理模型经过强化学习端到端训练后,处理复杂任务的能力有了质的飞跃...
推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术
2025年1月20日发布的Kimi k1.5因实现多模态推理性能引发关注,但一个月后技术博主Yue Wu公开质疑其核心算法SPPO借鉴了自己2024年5月提出的研究成果。这场争议...
国外权威认证!DeepSeek超150万模型,成最受欢迎开源大模型
Huggingface平台最新数据显示,中国开源大模型DeepSeek-R1以超过1万点赞量和1000万次下载量,成为该平台有史以来最受欢迎的开源模型。这一成绩仅用数周时间便...
3倍提速!现在你跑不过机器狗了,限制波士顿动力机器狗的竟然是电池功率?
波士顿动力的Spot机器狗通过强化学习技术实现了运动性能的显著突破。最新研究显示,Spot的奔跑速度从出厂时的1.6米/秒提升至18.7千米/时,接近小型犬20千米/...
1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法
阶跃星辰与清华大学联合发布的Open Reasoner Zero(ORZ)模型在强化学习训练方法上取得突破性进展。该研究采用极简主义方法,仅使用带有GAE的原版PPO算法和基...
10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现
荷兰开发者Raz采用轻量级强化学习算法Reinforce-Lite,以低于10美元的成本在3B参数规模的模型上复现了DeepSeek的'顿悟时刻'。该方法通过简化传统强化学习的复...