“强化学习”的搜索结果

基于扩散模型的,开源世界模型DIAMOND
研究人员联合开源了一款名为DIAMOND的世界模型,基于扩散模型,用于智能体训练、世界建模及多模态分布建模等强化学习应用。选择扩散模型...
清华、华为等提出iVideoGPT:专攻交互式世界模型
近年来,生成模型在视频生成领域取得了显著进展,尤其在无监督方式学习以构建预测世界模型方面。这些模型能积累关于世界如何运作的常识...
Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存
在近期的研究中,加拿大皇家银行 AI 研究所 Borealis AI 与蒙特利尔大学的研究者提出了一种新型序列建模方法,该方法旨在解决 Transform...
世界模型也扩散!训练出的智能体竟然不错
在图像生成领域,扩散模型已成为主流方法,并开始被应用于挑战强化学习智能体。近期研究提出了扩散世界模型,其主要通过对离散潜在变量...
在对齐 AI 时,为什么在线方法总是优于离线方法?
在人工智能对齐领域,在线方法和离线方法在性能上存在显著差异。DeepMind的最新研究通过实证剖析,探讨了在线算法普遍优于离线算法的根...
突发!OpenAI再失一名高管,安全主管辞职
在人工智能领域,OpenAI的高层管理层近期出现重大变动。继首席科学家Ilya Sutskever辞职后,安全主管兼超级对齐负责人Jan Leike也在社交...
谷歌提出大规模ICL方法——强化和无监督
本文主要讨论了大语言模型(LLM)在自然语言处理任务中的发展,特别是在少样本学习和上下文学习(ICL)方面的进展。文章首先指出,尽管L...
英伟达开源大模型对齐框架—NeMo-Aligner
本文主要介绍了英伟达开源的安全对齐框架NeMo-Aligner,旨在帮助开发人员提升大语言模型(LLM)的安全性能和稳定输出。随着大模型产品如...
在 ICLR 2024,看见中国大模型的力量
ICLR 2024 概况:ICLR 2024 在奥地利维也纳举行,自1月份启动论文终审以来,共收到7262篇提交论文,比去年增长46.1%。最终接受2260篇,...
LeCun哈佛演讲PPT放出:唱衰自回归LLM,指明下一代AI方向
机器学习现状:LeCun指出,尽管机器学习在某些领域取得了显著进展,但与人类和动物相比,机器学习效率低下。例如,人类青少年可以在20小...
1 7 8 9 10 11 15