标签:强化学习
DeepSeek V3+R1满血微调工具上线!一键启动,硬件要求降10倍
DeepSeek V3/R1等大模型在开源社区广泛应用的背景下,如何通过后训练技术实现低成本、高质量的私有模型定制成为行业焦点。Colossal-AI推出的开源大模型后训练...
DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此
Colossal-AI团队近期推出开源大模型后训练工具箱,为开发者提供低成本构建私有模型的解决方案。该工具箱支持对DeepSeek-V3/R1-671B等大模型进行全流程优化,...
强化学习Scaling Law错了?无需蒸馏,数据量只要1/6,效果还更好
研究团队通过系统分析揭示了强化学习训练中数据质量与模型推理能力提升的内在关联。核心发现表明,训练样本的质量和相关性远比数量重要,这一结论对传统认知...
DeepSeek 颠覆了什么?学习不靠“人盯”,AI自己“卷”自己
DeepSeek 在近期推出的 R1 模型及其 Zero 研究,通过纯强化学习路线实现了推理模型的突破性进展。其核心创新在于证明无需过程监督数据,仅依靠结果控制即可训...
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
上海AI Lab针对大语言模型在数学推理任务中面临的稀疏奖励困境、局部正确陷阱及规模依赖魔咒,提出了基于结果奖励的强化学习新范式OREAL。该框架通过正样本模...
Kimi复现OpenAI o1模型的关键思考过程
近期大模型领域呈现激烈竞争态势,DeepSeek R1与月之暗面Kimi 1.5推理模型相继展现技术突破。尽管Kimi团队通过通俗易懂的技术解析展示了其创新成果,但因未开...
DeepSeek R1 之后,重新理解推理模型
对推理模型的技术发展与行业应用分析显示,这类模型通过多步骤生成和中间思考过程解决复杂任务,其核心优势体现在解谜、数学证明与编码挑战等场景。“推理”被...
清华大学刘知远详解DeepSeek:OpenAI引爆o1藏秘方,但R1造出原子弹也能公开方法|钛媒体AGI
清华大学刘知远副教授在CCF青年论坛直播中深入剖析了DeepSeek R1模型的技术突破与行业影响。该模型通过开源方式完整复现OpenAI o1的深度推理能力,成为全球首...
Sebastian Raschka:关于DeepSeek R1和推理模型,我有几点看法
著名AI研究者Sebastian Raschka基于DeepSeek技术报告,系统阐述了增强大语言模型推理能力的四大核心方法。_推理模型被定义为擅长处理需要多步骤中间推导的复...
拾象科技李广密:对 DeepSeek 和智能下半场的几条判断
DeepSeek R1的出现标志着AI行业的新范式转变,其开源模式和低成本特性使其超越了Meta Llama,尽管与OpenAI、Anthropic和Google等第一梯队企业相比仍有差距。D...