标签：监督微调

SFT远不如RL？永不过时的剃刀原则打开「终身学习」大模型训练的大门

我们已进入大模型时代，大模型成为智能化基础设施核心，支撑多种下游应用，但多数模型是细分领域任务的专家，离通用人工智能（AGI）尚远，且存在“灾难性遗忘”...

AIGC动态

7天前

DeepSeek满血微调秘籍来了，全网首发打破低价内卷！解锁升级版全家桶

Colossal-AI近期发布了开源大模型后训练工具箱，旨在帮助开发者通过低成本方式对DeepSeek V3/R1等大规模模型进行监督微调与强化学习优化。该工具箱支持高达67...

AIGC动态

7个月前

Sebastian Raschka：关于DeepSeek R1和推理模型，我有几点看法

著名AI研究者Sebastian Raschka基于DeepSeek技术报告，系统阐述了增强大语言模型推理能力的四大核心方法。_推理模型被定义为擅长处理需要多步骤中间推导的复...

AIGC动态

7个月前