标签:强化学习
伯克利罗剑岚:机器人的范式革命,藏在真实世界中丨具身先锋十人谈
伯克利大学Sergey Levine团队最近发布了一项名为HIL-SERL的强化学习研究,该研究在具身智能领域引起了广泛关注。HIL-SERL框架使得研究者能够直接在现实世界中...
自动漂移、用LLM和扩散模型“折腾”机器人…顶会CoRL上最佳论文都在研究啥
第8届机器人学习大会(CoRL)于2024年11月6日至9日在德国慕尼黑举办,聚焦机器人学习领域的最新研究进展。会议吸引了超过1000名参与者,共收到671篇投稿,其...
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式
上海AI Lab团队发布了LLaMA版o1项目,旨在复刻OpenAI的o1推理大模型。该项目采用了蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式。...
OpenAI华人科学家翁荔:人类如何培养出下一代聪明且安全的AI技术|钛媒体AGI
在2024年Bilibili超级科学晚上,OpenAI研究副总裁翁荔发表了关于AI安全与培养的演讲。她强调,随着AI技术的快速发展,确保其行为符合人类价值观和安全性变得...
吞吐量最高飙升20倍!豆包大模型团队开源RLHF框架,破解强化学习训练部署难题
字节跳动豆包大模型团队与香港大学联合提出了一个名为HybridFlow(开源项目名:veRL)的灵活且高效的强化学习(RL)/RLHF框架。该框架采用混合编程模型,结合...
强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法
阿尔伯塔大学教授Richard Sutton及其团队提出了一种名为“奖励聚中”(Reward Centering)的新型强化学习思想,旨在改进现有强化学习方法。该思想通过从奖励中...
小红书大模型团队的探索与实践:从 0 到 1 构建自研 RLHF 框架
在人工智能技术快速发展的背景下,多模态大语言模型(MLLM)因其在图文理解、创作、知识推理及指令遵循方面的能力,成为数字化转型的重要推动力。小红书大模...
OpenAI科学家震惊TED大会:让AI模型思考20秒,提升10万倍性能!
在旧金山举行的TED AI大会上,OpenAI的高级研究科学家Noam Brown提出了一个创新理论,即通过让AI模型进行20秒的思考,可以实现相当于将模型扩大100,000倍并训...
揭秘 OpenR:首个类 o1 开源推理框架,增强大型语言模型复杂推理能力
由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学联合研究团队开发的首个类 o1 全链条训练框架「OpenR」已开源。OpenR 是...
首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布
由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学联合研究的首个类o1全链条训练框架「OpenR」已开源,旨在提升大型语言模...