标签:微调
模型调优无需标注数据!将Llama 3.3 70B直接提升到GPT-4o水平
Databricks公司推出了一种名为TAO(Test-time Adaptive Optimization)的新型模型调优方法,该方法无需标注数据即可完成大型语言模型(LLMs)的微调。TAO的核...
如何为预训练 LLM 添加新 token?
在预训练大模型(LLM)的微调过程中,添加新的 token 是提升模型在特定领域表现的关键步骤。这一操作不仅能够帮助模型更好地理解领域特定词汇,还能提高文本...
比DeepSeek、o1高3倍!首创无服务器强化微调,只需十几个数据点,
知名大模型训练与开发平台Predibase发布了首个端到端强化微调平台(RFT),这一平台通过奖励函数和自定义函数实现持续强化学习,无需依赖大量标注数据。与传...
我们如何引入DeepSeek R1来做领域特定语言训练的?
在网易 CodeWave 智能开发平台中,NASL(NetEase Application Specific Language)作为核心可视化编程语言,承担了多重关键作用。首先,它能够精确描述应用的...
「古董」GPU也能跑DeepSeek同款GRPO!显存只需1/10,上下文爆涨10倍
开源微调工具Unsloth近期发布了重大更新,进一步优化了GRPO(Group Relative Policy Optimization)训练算法,显著提升了性能并大幅降低了显存需求。此次更新...
7B级形式化推理与验证小模型,媲美满血版DeepSeek-R1,全面开源!
随着大模型在形式化证明写作中的需求日益增长,形式化推理与验证(formal reasoning and verification)逐渐成为研究的焦点。然而,现有的形式化推理大模型大...
清华北航博士生「强迫」Gemma-2说中文!弱智吧、角色扮演、数学问题表现惊喜
谷歌最新发布的Gemma 2模型在中文处理能力上存在不足,但清华大学和北航的两名博士生迅速推出了针对该模型的指令微调版本,显著提升了其在中文通用对话、角色...
如何从头开始编写LoRA代码,这有一份教程
本文介绍了一种名为 LoRA(Low-Rank Adaptation) 的微调技术,用于微调大语言模型(LLM)。LoRA 是一种流行的技术,通过仅更新一小部分低秩矩阵而不是整个神...
使用 Hugging Face 微调 Gemma 模型
在这篇文章中,我们将介绍 Google Deepmind 开放的 Gemma 语言模型,它现在可以通过 Hugging Face 向更广泛的开源社区开放。Gemma 提供了两个规模的版本:2B ...
碾压前辈!Meta发布“最大、性能最好”的开源Code Llama 70B,但开发者纷纷喊穷:玩不起!
Code Llama是Llama 2模型的编码专用版本,支持多种高人气编程语言。Meta发布了四种Code Llama模型版本,参数分别为7B、13B、34B和70B,各模型版本使用不同数...