标签:强化学习
宇树科技王兴兴:与其完善多模态大模型,不如探索开发全新模型
2024年被广泛认为是人形机器人技术发展的重要年份,具身智能论坛在2024智源大会上成为焦点,吸引了众多关注。宇树科技的创始人兼CEO王兴兴在论坛上强调,探索...
Anthropic公开Claude 3,像人类一样特殊性格训练方法
Anthropic在其最新大模型Claude 3中引入了一种个性化性格训练方法。该方法名为“Constitutional AI: Harmlessness from AI Feedback”,其核心在于在确保输出安...
基于扩散模型的,开源世界模型DIAMOND
研究人员联合开源了一款名为DIAMOND的世界模型,基于扩散模型,用于智能体训练、世界建模及多模态分布建模等强化学习应用。选择扩散模型为基础,因其能更好地...
世界模型也扩散!训练出的智能体竟然不错
在图像生成领域,扩散模型已成为主流方法,并开始被应用于挑战强化学习智能体。近期研究提出了扩散世界模型,其主要通过对离散潜在变量序列的操作来模拟环境...
谷歌提出大规模ICL方法——强化和无监督
本文主要讨论了大语言模型(LLM)在自然语言处理任务中的发展,特别是在少样本学习和上下文学习(ICL)方面的进展。文章首先指出,尽管LLM在少样本学习中表现...
英伟达开源大模型对齐框架—NeMo-Aligner
本文主要介绍了英伟达开源的安全对齐框架NeMo-Aligner,旨在帮助开发人员提升大语言模型(LLM)的安全性能和稳定输出。随着大模型产品如ChatGPT和Midjourney...
这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数
这篇文章报道了斯坦福大学团队最新的研究成果,该研究声称语言模型实际上是一个 Q 函数而不是奖励函数。他们提出了一种直接对齐方法,即在上下文多臂赌博机设...
港大张清鹏团队提出个性化癌症治疗新思路:用 AI 控制癌细胞进化过程
前列腺癌是全球男性中发病率较高的癌症之一,其治疗方法包括激素疗法,如雄激素剥夺疗法(ADT)。然而,耐药性的发展常常导致治疗失败,因此,研究人员一直在...
ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景
天津大学深度强化学习实验室的研究团队推出了面向现实决策场景的 Uni-RLHF 平台,这是一个专为强化学习与人类反馈(RLHF)量身定制的综合系统实施方案。Uni-R...
400米2分34秒破纪录!伯克利双足机器人「接管」人类
UC伯克利的双足机器人Cassie在HYBRID ROBOTICS研究团队的努力下,以惊人的速度跑完了400米,用时仅2分34秒,并且完成了1.4米的跳远。Cassie的独特之处在于只...