预训练 | 学习AIGC

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

在大语言模型的后训练阶段，强化学习是提升模型能力、对齐人类偏好的核心方法，但奖励模型的设计与训练仍是关键瓶颈。当前主流方法包括“基于偏好的奖励建模”...

AIGC动态

1个月前

文心大模型 4.5 系列正式开源，涵盖 10 余款模型

百度于6月30日正式开源了文心大模型4.5系列，涵盖10款不同参数规模的模型，包括47B、3B激活参数的混合专家（MoE）模型和0.3B参数的稠密型模型。这些模型已在...

AIGC动态

2个月前

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

大规模预训练和微调的模式在机器学习领域取得了显著成功，但在强化学习（RL）中的应用仍面临挑战。强化学习需要对时间和意图进行推理，传统方法在处理长时间...

AIGC动态

2个月前

OpenAI底层AGI技术被曝光！前研究主管豪言：从此再无新范式

OpenAI前研究主管Bob McGrew公开表示，AGI的「技术拼图」已经齐全，关键在于如何将推理能力落地并重塑价值创造路径。他认为，实现通用人工智能（AGI）的三大...

AIGC动态

2个月前

「Next-Token」范式改变！刚刚，强化学习预训练来了

在人工智能领域，强化学习（RL）长期以来被视为提升模型能力的辅助工具，而非核心方法。然而，近年来，强化学习在提升大语言模型（LLMs）能力方面的作用逐渐...

AIGC动态

2个月前

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

语言模型对强化学习中的奖励噪音表现出显著的鲁棒性，即使奖励信号被部分翻转，模型在下游任务中的表现也不会显著下降。研究者发现，强化学习对下游任务的提...

AIGC动态

3个月前

阿里通义 Qwen3 上线，开源大军再添一名猛将

阿里新一代通义千问开源模型 Qwen3 于4月29日正式上线，用户可通过通义App和网页版体验其强大的智能能力。Qwen3 包含8款不同尺寸的模型，均为全新的“混合推理...

AI-Agent

4个月前

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

近年来，视觉语言模型（VLMs）在多模态AI领域展现了重要的研究价值和应用潜力，但其安全性问题也逐渐受到关注。传统对抗攻击方法依赖预设标签，难以适应大规...

AIGC动态

4个月前

阿里开源多语言大模型，支持全球90%人口

阿里巴巴开源的多语言大模型Babel，旨在解决资源匮乏语言在人工智能领域中的不足。该模型支持25种主流语言，覆盖全球90%以上的人口，包括豪萨语、波斯语、印...

AIGC动态

5个月前

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

DeepSeek-V3-Base 在强化学习调优之前已经展现出「顿悟时刻」，这一现象引发了研究人员对预训练特性如何影响强化学习性能的深入探讨。研究发现，DeepSeek-V3-...

AIGC动态

5个月前

标签：预训练

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

文心大模型 4.5 系列正式开源，涵盖 10 余款模型

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

OpenAI底层AGI技术被曝光！前研究主管豪言：从此再无新范式

「Next-Token」范式改变！刚刚，强化学习预训练来了

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

阿里通义 Qwen3 上线，开源大军再添一名猛将

港科、北交、复旦等提出针对 VLM 的大规模预训练对抗攻击 AnyAttack | CVPR 2025

阿里开源多语言大模型，支持全球90%人口

揭秘DeepSeek R1-Zero训练方式，GRPO还有极简改进方案

热门网址

标签：预训练

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址