标签:模型微调
DeepSeek关键RL算法GRPO,有人从头跑通了,贡献完整代码
总结来说,需要确认标签是否符合字数限制,并且摘要是否全面且符合格式要求。如果有错误,需要进行修正。
10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现
荷兰开发者Raz采用轻量级强化学习算法Reinforce-Lite,以低于10美元的成本在3B参数规模的模型上复现了DeepSeek的'顿悟时刻'。该方法通过简化传统强化学习的复...
DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此
Colossal-AI团队近期推出开源大模型后训练工具箱,为开发者提供低成本构建私有模型的解决方案。该工具箱支持对DeepSeek-V3/R1-671B等大模型进行全流程优化,...
让大模型读懂善用知识库!清华等团队推出 UltraRAG 框架全家桶
清华大学THUNLP团队联合东北大学NEUIR、面壁智能及9#AISoft团队共同推出了UltraRAG框架,旨在简化RAG系统的搭建与优化工作。UltraRAG框架通过革新传统RAG系统...
算力直降97%,GPT-3存储只用20MB?!这篇直接在1.58-bit下训练模型的新论文火了
最近,一项名为“noise_step”的新技术由Will小哥提出,该技术允许模型在1.58-bit低精度下直接训练,无需反向传播或动量加速,从而大幅降低算力和存储消耗。这...
LeCun八年前神预言,大模型路线再颠覆?OpenAI宣告:强化学习取得稳定性突破
新智元报道指出,强化微调(RLF)技术可能在强化学习领域引发一场变革。Yann LeCun曾将智能比作蛋糕,其中无监督学习是主体,有监督学习是糖霜,而强化学习则...
52万张GPU集群塞进一个「盒子」?AI神器破解百模争霸困局!
在AI时代,算力成为关键资源,但获取算力面临挑战。OpenAI因微软提供算力速度慢而寻求其他供应商,国内企业则面临算力资源管理困难、模型微调复杂等问题。赛...
《Python机器学习》作者科普长文:从头构建类GPT文本分类器,代码开源
在Sebastian Raschka的长文中,他详细阐述了如何将预训练的大型语言模型(LLM)转化为文本分类器。文章首先强调了文本分类在商业应用中的重要性,如垃圾邮件...
专用于理解游戏场景的开源大模型-VideoGameBunny
加拿大阿尔伯塔的研究人员开发了一款名为VideoGameBunny(VGB)的大模型,旨在提升游戏开发领域的AI应用。VGB作为一款视觉AI助理,能够理解游戏环境并提供实...
我们如何在 1000 GPU 小时内做好 Open-Sora 微调
本文深入探讨了如何利用尖端技术提升视频生成质量,特别是通过微调开源模型来满足特定需求。作者介绍了Text2Video模型,它为开发者和内容创作者提供了新的创...
1
2