标签:强化学习

GPT 未竟的革命,由 o1 接棒:或是 LLM 研究最重要的发现

OpenAI近期推出了o1系列,标志着其在人工智能领域的又一次重大突破。o1系列在处理复杂推理任务方面表现出色,其在国际数学奥林匹克(IMO)资格考试中的正确解...

Yann LeCun不看好强化学习:「我确实更喜欢 MPC」

Meta首席人工智能科学家Yann LeCun对强化学习(RL)持批评态度,认为其需要大量尝试,效率低下,与人类学习方式不符。LeCun更倾向于模型预测控制(MPC),这...

分布式人工智能盛会 DAI 2024 征稿:Agent Day,强化学习之父 Richard Sutton 将出席

第六届分布式人工智能国际会议(DAI 2024)将于2024年12月18日至22日在新加坡举办,旨在汇聚全球顶尖研究人员和实践者,共同探讨分布式人工智能(Distributed...

DeepSeek开源数学大模型,高中、大学定理证明新SOTA

数学家陶哲轩在牛津数学公开讲座中提出,人工智能(AI)与数学的结合将推动形式化证明的编写超越人类,这不仅将验证现有证明,还将创造新的数学知识。AI在形...

最强智能体Agent Q发布!Llama 3成功率飙升3倍,OpenAI神秘「草莓」遭截胡?

MultiOn初创公司近期发布了一款名为Agent Q的智能体框架,宣称其在真实预订任务中的成功率达到了95.4%,引起了业界的广泛关注。该公司CEO Div Garg在推特上频...

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

近期,人工智能领域对于“从人类反馈中进行强化学习”(RLHF)是否属于真正的强化学习(RL)展开了激烈的讨论。这场讨论始于Andrej Karpathy发表的一系列推文,...

宇树科技王兴兴:与其完善多模态大模型,不如探索开发全新模型

2024年被广泛认为是人形机器人技术发展的重要年份,具身智能论坛在2024智源大会上成为焦点,吸引了众多关注。宇树科技的创始人兼CEO王兴兴在论坛上强调,探索...

Anthropic公开Claude 3,像人类一样特殊性格训练方法

Anthropic在其最新大模型Claude 3中引入了一种个性化性格训练方法。该方法名为“Constitutional AI: Harmlessness from AI Feedback”,其核心在于在确保输出安...

基于扩散模型的,开源世界模型DIAMOND

研究人员联合开源了一款名为DIAMOND的世界模型,基于扩散模型,用于智能体训练、世界建模及多模态分布建模等强化学习应用。选择扩散模型为基础,因其能更好地...

世界模型也扩散!训练出的智能体竟然不错

在图像生成领域,扩散模型已成为主流方法,并开始被应用于挑战强化学习智能体。近期研究提出了扩散世界模型,其主要通过对离散潜在变量序列的操作来模拟环境...
1 2 3 4 5