标签:强化学习
全网围观的2025大语言模型回顾:AI大牛karpathy总结了六大关键节点
2025年标志着人工智能从模仿人类行为向自主逻辑推理的质变。这一年见证了基于可验证奖励的强化学习(RLVR)取代传统的人类反馈机制,使大语言模型具备了真正...
港中文 MMlab×美团新研究:仅用一个模型,应对多种视觉推理任务
香港中文大学多媒体实验室与美团联合研究团队提出了一种名为OneThinker的统一多模态推理模型,旨在解决当前单一任务或单一模态方法面临的瓶颈问题。现实世界...
全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔
Physical Intelligence团队发布的π_0.6和清华大学星动纪元的iRe-VLA研究,标志着视觉-语言-动作模型(VLA)与在线强化学习(RL)结合的重大突破。VLA+online ...
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开
强化学习(RL)已成为提升大语言模型(LLM)复杂推理能力的关键技术范式,但其训练稳定性问题亟待解决。当前主流RL算法存在序列级奖励与token级优化的不匹配...
Yann LeCun离开Meta后首篇论文?使用了宇树机器人做研究
伯克利、纽约大学和约翰・开普勒林茨大学的研究团队提出了一种名为GenMimic的新方法,使机器人能够通过观看AI生成的视频学习并复现人类动作。这一突破性技术...
多模态思维链如何重塑 AI 与短视频的未来
快手高级算法专家文彬在AICon全球人工智能开发与应用大会上分享了Keye-VL多模态大模型的技术突破与应用实践。该模型通过多模态思维链技术实现了动态视频理解...
V3.2逼近Gemini 3,DeepSeek硬气喊话:接下来我要堆算力了
OpenAI前首席科学家Ilya Sutskever近期提出,过去五年依赖算力堆叠模型的'规模时代'正面临瓶颈,单纯扩大模型规模难以实现质变。然而DeepSeek通过V3.2系列模...
Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
我们正在经历一次静悄悄但本质性的AI范式转换,其意义不亚于Transformer本身的诞生。过去一年,关于AI发展的观点呈现两极分化:一方面存在'模型到顶论',另一...
混元OCR模型核心技术揭秘:统一框架、真端到端
腾讯混元大模型团队推出的HunyuanOCR模型是一款商业级开源视觉语言模型,专为OCR任务设计,参数规模仅1B,兼具轻量与高性能特性。该模型在文本检测识别、复杂...
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
月之暗面联合清华大学提出的全新加速引擎Seer,通过创新技术显著提升大语言模型(LLM)的强化学习训练效率。该系统针对传统RL训练中生成阶段(rollout phase...




