标签:强化学习

千人千面的真人级AI名师,劈开教育「不可能三角」

教育行业长期面临规模、质量与成本难以兼顾的困境,而「与爱为舞」公司开发的AI导师系统通过技术创新实现了突破。该系统已服务百万级用户,其核心在于将通用...

极简主义的胜利:清华团队用最简单的强化学习配方刷新1.5B模型纪录

清华大学、伊利诺伊大学和上海AI实验室的研究团队提出了一种名为JustRL的全新架构,该架构通过单阶段训练和固定超参数,在DeepSeek-R1-Distill-Qwen-1.5B与Ne...

自动驾驶VLA新SOTA:复旦联合团队提出WAM-Diff重塑端到端自动驾驶

复旦大学与引望智能科技联合提出的WAM-Diff框架,在NAVSIM-v1榜单上以91.0 PDMS的预测驾驶得分刷新了自动驾驶领域的性能记录。这一端到端自动驾驶系统通过掩...

全网围观的2025大语言模型回顾:AI大牛karpathy总结了六大关键节点

2025年标志着人工智能从模仿人类行为向自主逻辑推理的质变。这一年见证了基于可验证奖励的强化学习(RLVR)取代传统的人类反馈机制,使大语言模型具备了真正...

港中文 MMlab×美团新研究:仅用一个模型,应对多种视觉推理任务

香港中文大学多媒体实验室与美团联合研究团队提出了一种名为OneThinker的统一多模态推理模型,旨在解决当前单一任务或单一模态方法面临的瓶颈问题。现实世界...

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

Physical Intelligence团队发布的π_0.6和清华大学星动纪元的iRe-VLA研究,标志着视觉-语言-动作模型(VLA)与在线强化学习(RL)结合的重大突破。VLA+online ...

LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开

强化学习(RL)已成为提升大语言模型(LLM)复杂推理能力的关键技术范式,但其训练稳定性问题亟待解决。当前主流RL算法存在序列级奖励与token级优化的不匹配...

Yann LeCun离开Meta后首篇论文?使用了宇树机器人做研究

伯克利、纽约大学和约翰・开普勒林茨大学的研究团队提出了一种名为GenMimic的新方法,使机器人能够通过观看AI生成的视频学习并复现人类动作。这一突破性技术...

多模态思维链如何重塑 AI 与短视频的未来

快手高级算法专家文彬在AICon全球人工智能开发与应用大会上分享了Keye-VL多模态大模型的技术突破与应用实践。该模型通过多模态思维链技术实现了动态视频理解...

V3.2逼近Gemini 3,DeepSeek硬气喊话:接下来我要堆算力了

OpenAI前首席科学家Ilya Sutskever近期提出,过去五年依赖算力堆叠模型的'规模时代'正面临瓶颈,单纯扩大模型规模难以实现质变。然而DeepSeek通过V3.2系列模...
1 2 3 24