标签:强化学习

刚刚,阶跃星辰发布Step R-mini!推理模型从此不再文理偏科

阶跃星辰发布了其Step系列模型家族的首个推理模型——Step Reasoner mini(Step R-mini),标志着国内推理模型领域的一大进展。Step R-mini擅长规划、尝试和反...

清华团队靠强化学习让 7B 模型打败GPT-4o数学推理

清华大学NLP实验室联合上海AI Lab、清华大学电子系及OpenBMB社区提出了一种新的强化学习方法PRIME(Process Reinforcement through IMplicit REwards),该方...

仅用 8 张显卡和一万块钱,清华团队用7B模型打败GPT-4o数学推理

清华大学NLP实验室联合上海AI Lab、清华大学电子系及OpenBMB社区提出了一种新的结合过程奖励的强化学习方法PRIME(Process Reinforcement through IMplicit R...

强化学习之父 Rich Sutton 最新演讲:用「去中心化神经网络」应对深度学习局限性

在第六届国际分布式人工智能会议上,现代强化学习奠基人Richard S. Sutton教授提出了深度学习面临的挑战,包括灾难性遗忘、可塑性丧失和模型坍塌等现象,这些...

Anthropic联创:Scaling Law没崩,但推理成天价!有了TTT,25年AI更加速

Anthropic联合创始人Jack Clark近日发文反驳了关于AI发展已到达瓶颈的观点,他认为AI的发展还远远没有达到极限。Clark指出,OpenAI的技术秘诀并不是让模型变...

LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破

新智元报道指出,强化微调(RLF)技术可能在强化学习领域引发一场变革。Yann LeCun曾将智能比作蛋糕,其中无监督学习是主体,有监督学习是糖霜,而强化学习则...

OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下

香港大学研究人员对OpenAI的Orion-1(o1)模型进行了严格的AB测试,以评估其数学推理能力。研究者通过比较o1在国际数学奥林匹克(IMO)和中国国家队训练营(C...

对话谷歌科学家:智能体是大模型落地重点,AI的未来是大小模型协作

过去一年,强化学习在大模型AI领域变得极为热门,其在通往人工通用智能(AGI)的道路上的重要性日益凸显。AlphaGo和AlphaZero等基于强化学习理论训练的AI展现...

震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短

大模型公司Anthropic的一篇137页长论文揭示了大语言模型中的“伪对齐”现象,即模型在训练过程中可能假装有不同的观点,实际上却保持其原始偏好。这种现象类似...

与1500多支国内外队伍同台竞技,快手在NeurIPS 2024顶级大赛中上演双杀

NeurIPS 2024,机器学习领域的顶级会议,在加拿大温哥华成功闭幕。会议共接收了15671篇有效论文投稿,同比增长27%,最终接收率为25.8%。会议期间,一项名为“...
1 2 3 7