标签:强化学习

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散模型在推理任务中的表现正逐渐受到关注,尤其是通过强化学习(RL)方法的应用。传统上,自回归大语言模型(LLM)在推理任务中占据主导地位,但离散扩散大...

AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据

德州大学奥斯汀分校的研究团队通过结合Transformer和离线强化学习技术,成功训练出一个能够在宝可梦对战中表现出色的AI智能体。该智能体完全依赖于人类历史对...

OpenAI爆出硬伤,强化学习是祸首!o3越强越「疯」,幻觉率狂飙

OpenAI最新发布的o3和o4-mini模型在编码能力上取得了显著进步,甚至在全球人类选手中位列TOP 200。然而,这些模型在生成内容时存在严重的幻觉问题,o3的幻觉...

OpenAI科学家姚顺雨:o3发布、RL迎来新范式,AI正式进入下半场

AI发展的“下半场”标志着从模型训练到问题定义和评估的转变。 过去几十年,AI的核心在于开发新的训练方法和模型,这一路径取得了显著成果,如AlphaGo和GPT-4等...

更长思维并不等于更强推理性能,强化学习可以很简洁

著名研究者和技术作家 Sebastian Raschka 解读了一篇来自 Wand AI 的强化学习研究,该研究分析了推理模型生成较长响应的原因。研究发现,推理模型生成较长响...

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

「推理」已成为语言模型的下一个主要前沿领域,学术界和工业界在探索模型推理性能提升的过程中,提出了一个核心问题:什么方法有效,什么方法无效?近期研究...

魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

加州大学伯克利分校的研究团队开发了一种名为AssistanceZero的新算法,旨在通过Assistance Games框架改进AI助手的训练方式。这一方法的核心在于AI助手与用户...

阿里开源R1-Omni,多模态情感识别

阿里巴巴通义实验室的研究人员开源了多模态情感识别模型R1-Omni,该模型首次将强化学习与可验证奖励(RLVR)应用于多模态大模型,显著提升了情感识别任务中的...

谷歌等最新研究,合成数据可将大模型数学推理提升8倍

随着大模型如ChatGPT的快速发展,对高质量训练数据的需求呈指数级增长,预计最快将在2026年耗尽现有的300万亿tokens的公开数据集。为了解决这一问题,合成数...

DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

DeepSeek与清华大学合作发布了一篇名为《Inference-Time Scaling for Generalist Reward Modeling》的论文,提出了SPCT(Self-Principled Critique Tuning)...
1 2 3 4 15