强化学习 | 第 17 页

最强智能体Agent Q发布！Llama 3成功率飙升3倍，OpenAI神秘「草莓」遭截胡？

MultiOn初创公司近期发布了一款名为Agent Q的智能体框架，宣称其在真实预订任务中的成功率达到了95.4%，引起了业界的广泛关注。该公司CEO Div Garg在推特上频...

AI-Agent

11个月前

ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！

近期，人工智能领域对于“从人类反馈中进行强化学习”（RLHF）是否属于真正的强化学习（RL）展开了激烈的讨论。这场讨论始于Andrej Karpathy发表的一系列推文，...

AIGC动态

11个月前

宇树科技王兴兴：与其完善多模态大模型，不如探索开发全新模型

2024年被广泛认为是人形机器人技术发展的重要年份，具身智能论坛在2024智源大会上成为焦点，吸引了众多关注。宇树科技的创始人兼CEO王兴兴在论坛上强调，探索...

AIGC动态

1年前 (2024)

Anthropic公开Claude 3，像人类一样特殊性格训练方法

Anthropic在其最新大模型Claude 3中引入了一种个性化性格训练方法。该方法名为“Constitutional AI: Harmlessness from AI Feedback”，其核心在于在确保输出安...

AIGC动态

1年前 (2024)

基于扩散模型的，开源世界模型DIAMOND

研究人员联合开源了一款名为DIAMOND的世界模型，基于扩散模型，用于智能体训练、世界建模及多模态分布建模等强化学习应用。选择扩散模型为基础，因其能更好地...

AIGC动态

1年前 (2024)

世界模型也扩散！训练出的智能体竟然不错

在图像生成领域，扩散模型已成为主流方法，并开始被应用于挑战强化学习智能体。近期研究提出了扩散世界模型，其主要通过对离散潜在变量序列的操作来模拟环境...

AIGC动态

1年前 (2024)

谷歌提出大规模ICL方法——强化和无监督

本文主要讨论了大语言模型（LLM）在自然语言处理任务中的发展，特别是在少样本学习和上下文学习（ICL）方面的进展。文章首先指出，尽管LLM在少样本学习中表现...

AIGC动态

1年前 (2024)

英伟达开源大模型对齐框架—NeMo-Aligner

本文主要介绍了英伟达开源的安全对齐框架NeMo-Aligner，旨在帮助开发人员提升大语言模型（LLM）的安全性能和稳定输出。随着大模型产品如ChatGPT和Midjourney...

AIGC动态

1年前 (2024)

这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数

这篇文章报道了斯坦福大学团队最新的研究成果，该研究声称语言模型实际上是一个 Q 函数而不是奖励函数。他们提出了一种直接对齐方法，即在上下文多臂赌博机设...

AIGC动态

1年前 (2024)

港大张清鹏团队提出个性化癌症治疗新思路：用 AI 控制癌细胞进化过程

前列腺癌是全球男性中发病率较高的癌症之一，其治疗方法包括激素疗法，如雄激素剥夺疗法（ADT）。然而，耐药性的发展常常导致治疗失败，因此，研究人员一直在...

AIGC动态

1年前 (2024)

标签：强化学习

最强智能体Agent Q发布！Llama 3成功率飙升3倍，OpenAI神秘「草莓」遭截胡？

ChatGPT「秘方」竟在拖LLM后腿？Karpathy、LeCun联手开怼RLHF！

宇树科技王兴兴：与其完善多模态大模型，不如探索开发全新模型

Anthropic公开Claude 3，像人类一样特殊性格训练方法

基于扩散模型的，开源世界模型DIAMOND

世界模型也扩散！训练出的智能体竟然不错

谷歌提出大规模ICL方法——强化和无监督

英伟达开源大模型对齐框架—NeMo-Aligner

这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数

港大张清鹏团队提出个性化癌症治疗新思路：用 AI 控制癌细胞进化过程

热门网址

标签：强化学习

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址