标签:强化学习

最强智能体Agent Q发布!Llama 3成功率飙升3倍,OpenAI神秘「草莓」遭截胡?

MultiOn初创公司近期发布了一款名为Agent Q的智能体框架,宣称其在真实预订任务中的成功率达到了95.4%,引起了业界的广泛关注。该公司CEO Div Garg在推特上频...

ChatGPT「秘方」竟在拖LLM后腿?Karpathy、LeCun联手开怼RLHF!

近期,人工智能领域对于“从人类反馈中进行强化学习”(RLHF)是否属于真正的强化学习(RL)展开了激烈的讨论。这场讨论始于Andrej Karpathy发表的一系列推文,...

宇树科技王兴兴:与其完善多模态大模型,不如探索开发全新模型

2024年被广泛认为是人形机器人技术发展的重要年份,具身智能论坛在2024智源大会上成为焦点,吸引了众多关注。宇树科技的创始人兼CEO王兴兴在论坛上强调,探索...

Anthropic公开Claude 3,像人类一样特殊性格训练方法

Anthropic在其最新大模型Claude 3中引入了一种个性化性格训练方法。该方法名为“Constitutional AI: Harmlessness from AI Feedback”,其核心在于在确保输出安...

基于扩散模型的,开源世界模型DIAMOND

研究人员联合开源了一款名为DIAMOND的世界模型,基于扩散模型,用于智能体训练、世界建模及多模态分布建模等强化学习应用。选择扩散模型为基础,因其能更好地...

世界模型也扩散!训练出的智能体竟然不错

在图像生成领域,扩散模型已成为主流方法,并开始被应用于挑战强化学习智能体。近期研究提出了扩散世界模型,其主要通过对离散潜在变量序列的操作来模拟环境...

谷歌提出大规模ICL方法——强化和无监督

本文主要讨论了大语言模型(LLM)在自然语言处理任务中的发展,特别是在少样本学习和上下文学习(ICL)方面的进展。文章首先指出,尽管LLM在少样本学习中表现...

英伟达开源大模型对齐框架—NeMo-Aligner

本文主要介绍了英伟达开源的安全对齐框架NeMo-Aligner,旨在帮助开发人员提升大语言模型(LLM)的安全性能和稳定输出。随着大模型产品如ChatGPT和Midjourney...

这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数

这篇文章报道了斯坦福大学团队最新的研究成果,该研究声称语言模型实际上是一个 Q 函数而不是奖励函数。他们提出了一种直接对齐方法,即在上下文多臂赌博机设...

港大张清鹏团队提出个性化癌症治疗新思路:用 AI 控制癌细胞进化过程

前列腺癌是全球男性中发病率较高的癌症之一,其治疗方法包括激素疗法,如雄激素剥夺疗法(ADT)。然而,耐药性的发展常常导致治疗失败,因此,研究人员一直在...
1 15 16 17 18