微调 | 学习AIGC

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

大规模预训练和微调的模式在机器学习领域取得了显著成功，但在强化学习（RL）中的应用仍面临挑战。强化学习需要对时间和意图进行推理，传统方法在处理长时间...

AIGC动态

2个月前

ICLR 2025杰出论文公布！中科大硕士、OpenAI漆翔宇摘桂冠

ICLR 2025杰出论文评选结果揭晓，三篇杰出论文和三项荣誉提名奖脱颖而出。获奖论文的研究团队来自普林斯顿大学、不列颠哥伦比亚大学、新加坡国立大学和中国科...

AIGC动态

4个月前

模型调优无需标注数据！将Llama 3.3 70B直接提升到GPT-4o水平

Databricks公司推出了一种名为TAO（Test-time Adaptive Optimization）的新型模型调优方法，该方法无需标注数据即可完成大型语言模型（LLMs）的微调。TAO的核...

AIGC动态

5个月前

如何为预训练 LLM 添加新 token？

在预训练大模型（LLM）的微调过程中，添加新的 token 是提升模型在特定领域表现的关键步骤。这一操作不仅能够帮助模型更好地理解领域特定词汇，还能提高文本...

AIGC动态

5个月前

比DeepSeek、o1高3倍！首创无服务器强化微调，只需十几个数据点，

知名大模型训练与开发平台Predibase发布了首个端到端强化微调平台（RFT），这一平台通过奖励函数和自定义函数实现持续强化学习，无需依赖大量标注数据。与传...

AIGC动态

5个月前

我们如何引入DeepSeek R1来做领域特定语言训练的？

在网易 CodeWave 智能开发平台中，NASL（NetEase Application Specific Language）作为核心可视化编程语言，承担了多重关键作用。首先，它能够精确描述应用的...

AIGC动态

5个月前

「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍

开源微调工具Unsloth近期发布了重大更新，进一步优化了GRPO（Group Relative Policy Optimization）训练算法，显著提升了性能并大幅降低了显存需求。此次更新...

AIGC动态

6个月前

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

随着大模型在形式化证明写作中的需求日益增长，形式化推理与验证（formal reasoning and verification）逐渐成为研究的焦点。然而，现有的形式化推理大模型大...

AIGC动态

6个月前

清华北航博士生「强迫」Gemma-2说中文！弱智吧、角色扮演、数学问题表现惊喜

谷歌最新发布的Gemma 2模型在中文处理能力上存在不足，但清华大学和北航的两名博士生迅速推出了针对该模型的指令微调版本，显著提升了其在中文通用对话、角色...

AIGC动态

1年前 (2024)

如何从头开始编写LoRA代码，这有一份教程

本文介绍了一种名为 LoRA（Low-Rank Adaptation）的微调技术，用于微调大语言模型（LLM）。LoRA 是一种流行的技术，通过仅更新一小部分低秩矩阵而不是整个神...

AIGC动态

1年前 (2024)

标签：微调

强化学习也能预训练？效果可提升20倍，华人新作引爆RL新范式!

ICLR 2025杰出论文公布！中科大硕士、OpenAI漆翔宇摘桂冠

模型调优无需标注数据！将Llama 3.3 70B直接提升到GPT-4o水平

如何为预训练 LLM 添加新 token？

比DeepSeek、o1高3倍！首创无服务器强化微调，只需十几个数据点，

我们如何引入DeepSeek R1来做领域特定语言训练的？

「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

清华北航博士生「强迫」Gemma-2说中文！弱智吧、角色扮演、数学问题表现惊喜

如何从头开始编写LoRA代码，这有一份教程

热门网址

标签：微调

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址