标签：推理扩展

四个维度深入剖析「 Test-Time Scaling 」！首篇系统综述，拆解推理阶段扩展的原理与实战

随着大模型训练成本的急剧攀升和优质数据的逐渐枯竭，推理阶段扩展（Test-Time Scaling, TTS）技术迅速成为后预训练时代的关键突破口。与传统的“堆数据、堆参...

AIGC动态

4个月前

DeepSeek前脚发新论文，奥特曼立马跟上：GPT-5就在几个月后啊

DeepSeek与清华大学合作发布了一篇名为《Inference-Time Scaling for Generalist Reward Modeling》的论文，提出了SPCT（Self-Principled Critique Tuning）...

AIGC动态

4个月前

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

DeepSeek与清华大学的研究人员提出了一种名为自我原则批评调整（SPCT）的新方法，旨在提升通用奖励模型（GRM）在推理阶段的可扩展性。该方法通过结合拒绝式微...

AIGC动态

4个月前