标签:强化学习

刚刚,OpenAI公开o1模型测试方法,人机协作时代!

OpenAI最近发布了两篇关于其前沿模型如o1、GPT-4、DALL-E 3的安全测试方法的论文,旨在为开发人员提供开发安全、可靠AI模型的参考。这些测试方法强调AI与人类...

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

DeepSeek最近推出了一款新的推理模型DeepSeek-R1-Lite-Preview,这款模型在多个权威评测中超越了包括GPT-4o在内的顶尖模型,甚至在某些方面领先于OpenAI o1-p...

Karpathy后悔了:2015年就看到了语言模型的潜力,却搞了多年强化学习

AI领域的重要人物Andrej Karpathy,曾是OpenAI的创始成员和特斯拉的AI高级总监,最近表达了对自己早期研究方向选择的遗憾。他认为自己没有及时引领OpenAI进入...

月之暗面发布首款数学模型 k0-math,对标o1

月之暗面科技有限公司的创始人杨植麟在京东科技大厦宣布了Kimi数学模型k0-math的正式发布。该模型的数学能力与OpenAI的o1系列相媲美,且截至2024年10月,Kimi...

伯克利罗剑岚:机器人的范式革命,藏在真实世界中丨具身先锋十人谈

伯克利大学Sergey Levine团队最近发布了一项名为HIL-SERL的强化学习研究,该研究在具身智能领域引起了广泛关注。HIL-SERL框架使得研究者能够直接在现实世界中...

自动漂移、用LLM和扩散模型“折腾”机器人…顶会CoRL上最佳论文都在研究啥

第8届机器人学习大会(CoRL)于2024年11月6日至9日在德国慕尼黑举办,聚焦机器人学习领域的最新研究进展。会议吸引了超过1000名参与者,共收到671篇投稿,其...

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

上海AI Lab团队发布了LLaMA版o1项目,旨在复刻OpenAI的o1推理大模型。该项目采用了蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式。...

OpenAI华人科学家翁荔:人类如何培养出下一代聪明且安全的AI技术|钛媒体AGI

在2024年Bilibili超级科学晚上,OpenAI研究副总裁翁荔发表了关于AI安全与培养的演讲。她强调,随着AI技术的快速发展,确保其行为符合人类价值观和安全性变得...

吞吐量最高飙升20倍!豆包大模型团队开源RLHF框架,破解强化学习训练部署难题

字节跳动豆包大模型团队与香港大学联合提出了一个名为HybridFlow(开源项目名:veRL)的灵活且高效的强化学习(RL)/RLHF框架。该框架采用混合编程模型,结合...

强化学习之父Richard Sutton给出一个简单思路,大幅增强所有RL算法

阿尔伯塔大学教授Richard Sutton及其团队提出了一种名为“奖励聚中”(Reward Centering)的新型强化学习思想,旨在改进现有强化学习方法。该思想通过从奖励中...
1 2 3 4 6