标签:强化学习

北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

机器之心AIxiv专栏致力于发布学术和技术内容,已报道2000多篇涵盖全球顶级实验室的文章,促进了学术交流。OpenAI的o1模型在数学、代码和长程规划等领域取得显...

OpenAI o1模型问世,五级AGI再突破!推理极限超博士,清北复旦华人立功

OpenAI最近推出了o1系列模型,包括o1-preview和o1-mini,这些模型在复杂推理、数学和编程问题上展现出了显著的性能提升。o1-preview模型将向ChatGPT的Plus和T...

大招憋出来了!OpenAI发布最强推理模型o1,它真的会思考,但API比4o贵好几倍

OpenAI 近日宣布推出了备受期待的推理模型 Strawberry,即 OpenAI o1-preview,以及一个更小、成本更低的版本 o1 mini。此次发布的模型被称为“预览版”,表明 ...

刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限

OpenAI在9月13日宣布了其最新AI大模型系列的发布,这标志着大模型技术发展的新起点。新模型专门设计用于解决复杂问题,能够执行复杂推理,超越了以往科学、代...

GPT 未竟的革命,由 o1 接棒:或是 LLM 研究最重要的发现

OpenAI近期推出了o1系列,标志着其在人工智能领域的又一次重大突破。o1系列在处理复杂推理任务方面表现出色,其在国际数学奥林匹克(IMO)资格考试中的正确解...

Yann LeCun不看好强化学习:「我确实更喜欢 MPC」

Meta首席人工智能科学家Yann LeCun对强化学习(RL)持批评态度,认为其需要大量尝试,效率低下,与人类学习方式不符。LeCun更倾向于模型预测控制(MPC),这...

分布式人工智能盛会 DAI 2024 征稿:Agent Day,强化学习之父 Richard Sutton 将出席

第六届分布式人工智能国际会议(DAI 2024)将于2024年12月18日至22日在新加坡举办,旨在汇聚全球顶尖研究人员和实践者,共同探讨分布式人工智能(Distributed...

DeepSeek开源数学大模型,高中、大学定理证明新SOTA

数学家陶哲轩在牛津数学公开讲座中提出,人工智能(AI)与数学的结合将推动形式化证明的编写超越人类,这不仅将验证现有证明,还将创造新的数学知识。AI在形...

最强智能体Agent Q发布!Llama 3成功率飙升3倍,OpenAI神秘「草莓」遭截胡?

MultiOn初创公司近期发布了一款名为Agent Q的智能体框架,宣称其在真实预订任务中的成功率达到了95.4%,引起了业界的广泛关注。该公司CEO Div Garg在推特上频...

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

近期,人工智能领域对于“从人类反馈中进行强化学习”(RLHF)是否属于真正的强化学习(RL)展开了激烈的讨论。这场讨论始于Andrej Karpathy发表的一系列推文,...
1 2 3 4 5 6