标签:多轮训练
搞不懂CUDA的人有救了,Devin开发商开源Kevin,强化学习生成CUDA内核
Cognition AI 近期开源了一款名为 Kevin-32B 的大模型,该模型通过强化学习技术专门用于编写 CUDA 内核。Kevin-32B 基于 QwQ-32B 模型,并在 KernelBench 数...
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
在大语言模型(LLM)的研究领域,自我纠正能力一直是一个重要的研究方向。然而,现有的自我纠正训练方法通常依赖于多个模型或额外的监督,这限制了其实用性。...