标签:预训练

奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式

在大语言模型的后训练阶段,强化学习是提升模型能力、对齐人类偏好的核心方法,但奖励模型的设计与训练仍是关键瓶颈。当前主流方法包括“基于偏好的奖励建模”...

文心大模型 4.5 系列正式开源,涵盖 10 余款模型

百度于6月30日正式开源了文心大模型4.5系列,涵盖10款不同参数规模的模型,包括47B、3B激活参数的混合专家(MoE)模型和0.3B参数的稠密型模型。这些模型已在...

强化学习也能预训练?效果可提升20倍,华人新作引爆RL新范式!

大规模预训练和微调的模式在机器学习领域取得了显著成功,但在强化学习(RL)中的应用仍面临挑战。强化学习需要对时间和意图进行推理,传统方法在处理长时间...

OpenAI底层AGI技术被曝光!前研究主管豪言:从此再无新范式

OpenAI前研究主管Bob McGrew公开表示,AGI的「技术拼图」已经齐全,关键在于如何将推理能力落地并重塑价值创造路径。他认为,实现通用人工智能(AGI)的三大...

「Next-Token」范式改变!刚刚,强化学习预训练来了

在人工智能领域,强化学习(RL)长期以来被视为提升模型能力的辅助工具,而非核心方法。然而,近年来,强化学习在提升大语言模型(LLMs)能力方面的作用逐渐...

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

语言模型对强化学习中的奖励噪音表现出显著的鲁棒性,即使奖励信号被部分翻转,模型在下游任务中的表现也不会显著下降。研究者发现,强化学习对下游任务的提...

阿里通义 Qwen3 上线 ,开源大军再添一名猛将

阿里新一代通义千问开源模型 Qwen3 于4月29日正式上线,用户可通过通义App和网页版体验其强大的智能能力。Qwen3 包含8款不同尺寸的模型,均为全新的“混合推理...

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

近年来,视觉语言模型(VLMs)在多模态AI领域展现了重要的研究价值和应用潜力,但其安全性问题也逐渐受到关注。传统对抗攻击方法依赖预设标签,难以适应大规...

阿里开源多语言大模型,支持全球90%人口

阿里巴巴开源的多语言大模型Babel,旨在解决资源匮乏语言在人工智能领域中的不足。该模型支持25种主流语言,覆盖全球90%以上的人口,包括豪萨语、波斯语、印...

揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案

DeepSeek-V3-Base 在强化学习调优之前已经展现出「顿悟时刻」,这一现象引发了研究人员对预训练特性如何影响强化学习性能的深入探讨。研究发现,DeepSeek-V3-...
1 2 3