强化学习 | 第 3 页

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

强化学习已成为大型语言模型（LLM）技术栈的核心组成部分，其应用范围从模型对齐、推理训练扩展到新兴的智能体强化学习（Agentic RL）。Unsloth团队近期发布...

AI-Agent

3个月前

00后投身具身智能创业，剑指机器人界「Model 3」！已推出21个自由度灵巧手

灵初智能最新推出的自研灵巧手具备21个自由度，远超市面上常见的6自由度抓取器，支持16主动自由度，能够完成夹持、旋转、精准插拔等精细操作。这一技术突破在...

AIGC动态

3个月前

5年白领下岗，AGI靠RL一飞冲天？网友：这是让狗学会打麻将！

Claude 4核心成员Sholto Douglas和Trenton Bricken在播客节目中提出，仅依靠强化学习（RL）和数据收集就足以在5年内实现通用人工智能（AGI），并自动化白领工...

AIGC动态

3个月前

推荐大模型来了？OneRec论文解读：端到端训练如何同时吃掉效果与成本

推荐系统正经历由大型语言模型（LLM）驱动的范式变革。传统级联架构因算力碎片化、目标冲突等问题面临瓶颈，而快手提出的端到端生成式系统OneRec通过整合Enco...

AIGC动态

3个月前

北大卢宗青：现阶段世界模型和 VLA 都不触及本质｜具身先锋十人谈

卢宗青是一位具身智能领域的创业者，拥有深厚的学术背景和实践经验。他曾在北京大学担任计算机学院长聘副教授，并负责过多个国家级科研项目。他的研究领域从...

AIGC动态

3个月前

请记住 MiniMax M1：MiniMax 用自己的方法追上R1们，直奔最强Agent模型而去

MiniMax M1 的发布标志着该公司在基础模型领域的一次重大突破。该模型采用了线性注意力 Lightning Attention 机制，并将其与传统的 softmax attention 相结合...

AI-Agent

3个月前

游戏教父 John Carmack：LLM 不是游戏的未来

John Carmack作为游戏开发领域的先驱，回顾了自己在Id Software、Armadillo Aerospace、Oculus和Keen Technologies的职业生涯，并分享了他对人工智能和强化学...

AIGC动态

3个月前

LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

近期，关于AI自我演进的研究和讨论逐渐增多，多个机构提出了不同的自我改进框架。例如，Sakana AI与不列颠哥伦比亚大学合作的「达尔文-哥德尔机（DGM）」、CM...

AIGC动态

3个月前

灵初智能陈源培：一个 00 后的机器人之梦

陈源培，灵初智能的联合创始人，作为00后技术创业者，凭借在具身智能领域的突出贡献，入选了福布斯“30 Under 30 – Asia – AI (2025)”榜单。尽管本科专业是土...

AIGC动态

3个月前

「Next-Token」范式改变！刚刚，强化学习预训练来了

在人工智能领域，强化学习（RL）长期以来被视为提升模型能力的辅助工具，而非核心方法。然而，近年来，强化学习在提升大语言模型（LLMs）能力方面的作用逐渐...

AIGC动态

3个月前

标签：强化学习

从RLHF、PPO到GRPO再训练推理模型，这是你需要的强化学习入门指南

00后投身具身智能创业，剑指机器人界「Model 3」！已推出21个自由度灵巧手

5年白领下岗，AGI靠RL一飞冲天？网友：这是让狗学会打麻将！

推荐大模型来了？OneRec论文解读：端到端训练如何同时吃掉效果与成本

北大卢宗青：现阶段世界模型和 VLA 都不触及本质｜具身先锋十人谈

请记住 MiniMax M1：MiniMax 用自己的方法追上R1们，直奔最强Agent模型而去

游戏教父 John Carmack：LLM 不是游戏的未来

LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

灵初智能陈源培：一个 00 后的机器人之梦

「Next-Token」范式改变！刚刚，强化学习预训练来了

热门网址

标签：强化学习

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址