标签：多轮训练

搞不懂CUDA的人有救了，Devin开发商开源Kevin，强化学习生成CUDA内核

Cognition AI 近期开源了一款名为 Kevin-32B 的大模型，该模型通过强化学习技术专门用于编写 CUDA 内核。Kevin-32B 基于 QwQ-32B 模型，并在 KernelBench 数...

AIGC动态

4个月前

强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

在大语言模型（LLM）的研究领域，自我纠正能力一直是一个重要的研究方向。然而，现有的自我纠正训练方法通常依赖于多个模型或额外的监督，这限制了其实用性。...

AIGC动态

12个月前