标签:监督微调

SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门

我们已进入大模型时代,大模型成为智能化基础设施核心,支撑多种下游应用,但多数模型是细分领域任务的专家,离通用人工智能(AGI)尚远,且存在“灾难性遗忘”...

DeepSeek满血微调秘籍来了,全网首发打破低价内卷!解锁升级版全家桶

Colossal-AI近期发布了开源大模型后训练工具箱,旨在帮助开发者通过低成本方式对DeepSeek V3/R1等大规模模型进行监督微调与强化学习优化。该工具箱支持高达67...

Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法

著名AI研究者Sebastian Raschka基于DeepSeek技术报告,系统阐述了增强大语言模型推理能力的四大核心方法。_推理模型被定义为擅长处理需要多步骤中间推导的复...