刷榜「代码生成」任务！复旦等发布StepCoder框架：从编译器反馈信号中强化学习

AIGC动态1年前 (2024)发布 AIera

2,242 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

【关键词】 强化学习、代码生成、StepCoder、课程分解、细粒度优化

新智元报道了一种新型强化学习框架StepCoder，由复旦大学、华中科技大学和皇家理工学院的研究人员共同提出。StepCoder旨在解决大型语言模型（LLMs代码生成领域面临的两个主要问题：1) 强化学习探索难以直接适配复杂的人类需求，即生成长序列代码；2) 使用未执行的代码片段优化LLMs效果不佳。StepCoder通过两个主要组件来解决这些问题：1) 将长序列代码生成任务分解为代码完成子任务的课程（CCCS）；2) 对未执行的代码段进行细粒度优化（FGO）。

StepCoder的CCCS阶段通过将复杂探索问题分解为一系列子任务，从而减轻强化学习中的探索挑战。在FGO阶段，研究人员对单元测试中未执行的tokens进行遮罩，仅使用已执行的tokens计算损失函数，实现细粒度优化。此外，研究人员还构建了APPS+数据集，用于强化学习训练，并确保单元测试的正确性。

实验结果表明，StepCoder在探索输出空间的能力上优于现有最先进方法，并在相应的基准测试中取得了高分。这表明强化学习在编译器反馈的指导下，可以更有效地浏览模型的输出空间，从而提高代码生成质量。StepCoder在不同级别的测试题目中均取得了优异的成绩，证明了其在代码生成任务中的有效性和优越性。

原文信息

【原文链接】 阅读原文
【阅读预估】 2402 / 10分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

上一篇
仅需200M参数，零样本性能超越有监督！谷歌发布时序预测基础模型TimesFM

下一篇
不完美、但成功，SpaceX 星舰 No.3 发射的真正意义

相关文章

艰难的 2023，小鹏收了个好官

 极客公园

1,847

Transformer七子重聚GTC，老黄亲自赠送签名版DGX-1！7年奠基之作背后佚事揭秘

 新智元

1,917

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

 机器之心

2,066

谷歌华人工程师被捕：号称“全球能搭建万卡级算力平台的十人之一”，在国内两公司担任CTO、CEO

AI前线

1,925

零一万物自研全导航图向量数据库，权威榜单评测 6 项第一

 AI科技评论

1,759

中国新能源车 20 年：骗子、生死和「遥遥领先」

极客公园

2,339

暂无评论

再想想

暂无评论...

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址
讯飞星辰Agent开发平台-官网
便宜且可靠的4o Image API
Lami.ai：免费的AI文本生成音乐平台
AI大学堂
Hyper3D
讯飞智文 – AI在线生成PPT、Word
讯飞星火-懂我的AI助手
讯飞绘文_一站式AIGC内容运营平台
Veo3.bot: 免费的Veo 3 AI视频工具
Kie.ai：最便宜和稳定的 Veo 3 API支持同步音频
热门文章

科学能力太强，这个多模态推理「六边形战士」被严重低估！Intern-S1开源登顶

2周前
692

别只盯着李飞飞！AI的「3D数据底座」已被这家中国公司悄悄建好

1周前
680

谷歌前CEO施密特：中美大模型之间存在一个显著区别｜文末赠书

1周前
668

国产GPU跑满血DeepSeek，已经可以100 tokens/s了！

2周前
585

破解大模型算力困局？国产GPU用“AI工厂”给出答案

2周前
494

Hinton能重新坐下了，什么时候开始的？

6天前
475

77岁Hinton首度访华，周伯文高能交锋！17分钟尖峰对话震撼全场

2周前
475

杰弗里·辛顿在中国上海的一天｜附辛顿最新对话实录

2周前
464