刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习

AIGC动态7个月前发布 AIera
738 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

刷榜「代码生成」任务!复旦等发布StepCoder框架:从编译器反馈信号中强化学习
 

文章摘要


【关 键 词】 强化学习代码生成StepCoder课程分解细粒度优化

新智元报道了一种新型强化学习框架StepCoder,由复旦大学、华中科技大学和皇家理工学院的研究人员共同提出。StepCoder旨在解决大型语言模型(LLMs代码生成领域面临的两个主要问题:1) 强化学习探索难以直接适配复杂的人类需求,即生成长序列代码;2) 使用未执行的代码片段优化LLMs效果不佳。StepCoder通过两个主要组件来解决这些问题:1) 将长序列代码生成任务分解为代码完成子任务的课程(CCCS);2) 对未执行的代码段进行细粒度优化FGO)。

StepCoder的CCCS阶段通过将复杂探索问题分解为一系列子任务,从而减轻强化学习中的探索挑战。在FGO阶段,研究人员对单元测试中未执行的tokens进行遮罩,仅使用已执行的tokens计算损失函数,实现细粒度优化。此外,研究人员还构建了APPS+数据集,用于强化学习训练,并确保单元测试的正确性。

实验结果表明,StepCoder在探索输出空间的能力上优于现有最先进方法,并在相应的基准测试中取得了高分。这表明强化学习在编译器反馈的指导下,可以更有效地浏览模型的输出空间,从而提高代码生成质量。StepCoder在不同级别的测试题目中均取得了优异的成绩,证明了其在代码生成任务中的有效性和优越性。

原文信息


【原文链接】 阅读原文
【阅读预估】 2402 / 10分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

© 版权声明

相关文章

暂无评论

暂无评论...