“智能体训练”的搜索结果

OpenAI发布CriticGPT模型,帮助人类找出ChatGPT错误
OpenAI于6月28日发布了CriticGPT,这是基于GPT-4的最新模型,专为开发人员设计,旨在提高人类反馈强化学习(RLHF)的效率,从而生成更高...
基于扩散模型的,开源世界模型DIAMOND
研究人员联合开源了一款名为DIAMOND的世界模型,基于扩散模型,用于智能体训练、世界建模及多模态分布建模等强化学习应用。选择扩散模型...
世界模型也扩散!训练出的智能体竟然不错
在图像生成领域,扩散模型已成为主流方法,并开始被应用于挑战强化学习智能体。近期研究提出了扩散世界模型,其主要通过对离散潜在变量...