“强化学习”的搜索结果

强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
在大语言模型(LLM)的研究领域,自我纠正能力一直是一个重要的研究方向。然而,现有的自我纠正训练方法通常依赖于多个模型或额外的监督...
北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
机器之心AIxiv专栏致力于发布学术和技术内容,已报道2000多篇涵盖全球顶级实验室的文章,促进了学术交流。OpenAI的o1模型在数学、代码和...
张俊林:OpenAI o1的价值意义及强化学习的Scaling Law
张俊林在其文章中对OpenAI的o1模型进行了深入分析,认为这是自GPT-4以来大模型领域的一个重要进步。o1模型在逻辑推理能力上的提升,使其...
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
OpenAI在9月13日宣布了其最新AI大模型系列的发布,这标志着大模型技术发展的新起点。新模型专门设计用于解决复杂问题,能够执行复杂推理...
Yann LeCun不看好强化学习:「我确实更喜欢 MPC」
Meta首席人工智能科学家Yann LeCun对强化学习(RL)持批评态度,认为其需要大量尝试,效率低下,与人类学习方式不符。LeCun更倾向于模型...
分布式人工智能盛会 DAI 2024 征稿:Agent Day,强化学习之父 Richard Sutton 将出席
第六届分布式人工智能国际会议(DAI 2024)将于2024年12月18日至22日在新加坡举办,旨在汇聚全球顶尖研究人员和实践者,共同探讨分布式...
Science Robotics封面!DeepMind强化学习打造超一流机器人球员
这篇文章介绍了谷歌DeepMind团队在双足机器人运动技能方面取得的突破性进展。他们利用深度强化学习框架赋能仿人机器人全身控制,使其具...
刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
新智元报道了一种新型强化学习框架StepCoder,由复旦大学、华中科技大学和皇家理工学院的研究人员共同提出。StepCoder旨在解决大型语言...
最新 Hugging Face 强化学习课程(中文版)来啦!
整理的文章的重点内容如下:第一段:介绍了深度强化学习课程 v2.0 的开启,以及课程更新发布在 Hugging Face 官网的信息,感谢人邮老师...
全球首个人机交互端到端多模态大模型发布,RockAI CEO刘凡平:训推同步是自主学习的最佳方式|钛媒体AGI
岩芯数智RockAI在上海发布了其最新升级的Yan 1.3大模型,这是全球首个端到端的多模态大模型,能够处理图文及语音等多模态信息,并适用于...
1 2 3 15