标签:强化学习
LLM强化学习不稳定之谜,被Qwen团队从「一阶近似」视角解开
强化学习(RL)已成为提升大语言模型(LLM)复杂推理能力的关键技术范式,但其训练稳定性问题亟待解决。当前主流RL算法存在序列级奖励与token级优化的不匹配...
Yann LeCun离开Meta后首篇论文?使用了宇树机器人做研究
伯克利、纽约大学和约翰・开普勒林茨大学的研究团队提出了一种名为GenMimic的新方法,使机器人能够通过观看AI生成的视频学习并复现人类动作。这一突破性技术...
多模态思维链如何重塑 AI 与短视频的未来
快手高级算法专家文彬在AICon全球人工智能开发与应用大会上分享了Keye-VL多模态大模型的技术突破与应用实践。该模型通过多模态思维链技术实现了动态视频理解...
V3.2逼近Gemini 3,DeepSeek硬气喊话:接下来我要堆算力了
OpenAI前首席科学家Ilya Sutskever近期提出,过去五年依赖算力堆叠模型的'规模时代'正面临瓶颈,单纯扩大模型规模难以实现质变。然而DeepSeek通过V3.2系列模...
Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
我们正在经历一次静悄悄但本质性的AI范式转换,其意义不亚于Transformer本身的诞生。过去一年,关于AI发展的观点呈现两极分化:一方面存在'模型到顶论',另一...
混元OCR模型核心技术揭秘:统一框架、真端到端
腾讯混元大模型团队推出的HunyuanOCR模型是一款商业级开源视觉语言模型,专为OCR任务设计,参数规模仅1B,兼具轻量与高性能特性。该模型在文本检测识别、复杂...
月之暗面公开强化学习训练加速方法:训练速度暴涨97%,长尾延迟狂降93%
月之暗面联合清华大学提出的全新加速引擎Seer,通过创新技术显著提升大语言模型(LLM)的强化学习训练效率。该系统针对传统RL训练中生成阶段(rollout phase...
国产AI拿下国际物理奥赛金牌,13项顶级竞赛豪取12金1银,划重点:开源
上海人工智能实验室团队推出的开源模型家族P1,成为首个在国际物理奥林匹克竞赛(IPhO 2025)理论考试中达到金牌线的开源模型。P1-235B-A22B在IPhO 2025中取...
北大、字节、中科院自动化研究所等提出图像并行生成新范式
当前多模态AI领域存在一个反直觉现象:让模型在生成图像前进行文本推理,反而会降低生成结果的语义保真度。这一发现源于主流自回归架构的固有缺陷——上游推理...
强化学习 AI 系统的设计实现及未来发展
强化学习作为推动大语言模型智能化的核心手段,其复杂程度体现在算法理论与工程实践的双重挑战中。阿里巴巴算法专家曹宇在AICon 2025的分享中,系统梳理了RLH...




