奖励模型 | 学习AIGC

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

强化学习已成为推动人工智能向通用人工智能（AGI）发展的关键技术节点，但奖励模型的设计与训练一直是制约模型能力提升的瓶颈。当前，大语言模型通过Next Tok...

AIGC动态

3个月前

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

POLAR是一种全新的奖励模型，采用了对比学习范式，通过衡量模型回复与参考答案的「距离」来给出精细分数。这一创新方法不仅减少了对海量人工标注的依赖，还展...

AIGC动态

3个月前

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

在大语言模型的后训练阶段，强化学习是提升模型能力、对齐人类偏好的核心方法，但奖励模型的设计与训练仍是关键瓶颈。当前主流方法包括“基于偏好的奖励建模”...

AIGC动态

3个月前

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

大语言模型（LLM）的生成能力虽然强大，但其输出是否符合人类偏好需要依赖奖励模型（Reward Model, RM）的精准评判。奖励模型在大模型训练中扮演着关键角色，...

AIGC动态

3个月前

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

多模态奖励模型（MRMs）在多模态大语言模型（MLLMs）的性能提升中扮演着关键角色，尤其在训练和评估阶段能够提供稳定的奖励信号。然而，尽管强化学习（RL）在...

AIGC动态

5个月前

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

DeepSeek与清华大学合作发布了一篇名为《Inference-Time Scaling for Generalist Reward Modeling》的论文，提出了SPCT（Self-Principled Critique Tuning）...

AIGC动态

6个月前

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

DeepSeek与清华大学的研究人员提出了一种名为自我原则批评调整（SPCT）的新方法，旨在提升通用奖励模型（GRM）在推理阶段的可扩展性。该方法通过结合拒绝式微...

AIGC动态

6个月前

业界突破多模态泛化推理能力，OPPO研究院&港科广提出OThink-MR1技术

OPPO研究院与香港科技大学（广州）的研究人员提出了一项名为OThink-MR1的新技术，旨在通过动态强化学习提升多模态大模型的泛化推理能力。多模态大模型虽然能...

AIGC动态

6个月前

为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need

普林斯顿大学的研究团队从优化角度探讨了奖励模型在RLHF（基于人类反馈的强化学习）中的有效性，并揭示了仅依赖准确度评估奖励模型的局限性。研究表明，奖励...

AIGC动态

6个月前

清华一作1B暴打405B巨无霸，7B逆袭DeepSeek R1！测试时Scaling封神

多机构联合研究发现，通过优化测试时计算扩展（TTS）策略，小型语言模型在复杂数学任务中展现出超越大型模型的潜力。0.5B参数的模型在MATH-500和AIME24基准测...

AIGC动态

8个月前

标签：奖励模型

奖励模型也能Scaling！上海AI Lab突破强化学习短板，提出策略判别学习新范式

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

奖励模型终于迎来预训练新时代！上海AI Lab、复旦POLAR，开启Scaling新范式

人机协同筛出2600万条数据，七项基准全部SOTA，昆仑万维开源奖励模型再迎新突破

RL训练总崩溃？R1-Reward稳定解锁奖励模型Long-Cot推理能力

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

业界突破多模态泛化推理能力，OPPO研究院&港科广提出OThink-MR1技术

为什么明明很准，奖励模型就是不work？新研究：准确度 is not all you need

清华一作1B暴打405B巨无霸，7B逆袭DeepSeek R1！测试时Scaling封神

热门网址

标签：奖励模型

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址