标签:智能体训练

OpenAI发布CriticGPT模型,帮助人类找出ChatGPT错误

OpenAI于6月28日发布了CriticGPT,这是基于GPT-4的最新模型,专为开发人员设计,旨在提高人类反馈强化学习(RLHF)的效率,从而生成更高质量的训练数据。RLHF...

世界模型也扩散!训练出的智能体竟然不错

在图像生成领域,扩散模型已成为主流方法,并开始被应用于挑战强化学习智能体。近期研究提出了扩散世界模型,其主要通过对离散潜在变量序列的操作来模拟环境...