
文章摘要
【关 键 词】 代码推理、逻辑推理、模型优化、数据增强、性能提升
DeepSeek团队提出的CODEI/O方法通过代码输入/输出预测任务,显著提升了大型语言模型在多种推理任务中的表现。该方法将原始代码文件转换为可执行函数,并构建自然语言思维链(CoT)来预测输入输出关系,从而系统性地提取代码中蕴含的推理模式。研究团队从CodeMix、PyEdu-R等多样化代码源收集81万份原始文件,经预处理后生成350万条训练实例,覆盖逻辑流程编排、递归分解等核心推理技能。
数据构建流程包含三个关键环节:首先通过代码清理和重构提取核心逻辑功能,确保输入输出的JSON可序列化;随后设计基于规则的输入生成器,在约束条件下实现可扩展测试用例生成;最后通过DeepSeek-V2.5合成自然语言推理链,形成CODEI/O和CODEI/O++两类数据集。实验表明,CODEI/O++通过多轮反馈修正,在保持任务性能平衡的同时,将平均分数提升0.7%-1.2%。
在跨模型评估中,CODEI/O展现出显著优势。Qwen 2.5 7B和LLaMA 3.1 8B等模型在符号推理、科学推理等五大任务上均实现持续改进,其性能提升幅度超越OpenMathInstruct2等专业数学数据集的表现,验证了代码数据对广义推理能力的促进作用。消融实验揭示,输入/输出预测任务的平衡设计对性能提升至关重要,单独使用输入预测或输出预测会导致不同任务表现波动。
研究团队进一步验证了方法设计的有效性:当训练数据量从1/6增至全量时,模型在LeetCode-O等基准上的准确率提升达15%;两阶段训练策略相比单阶段混合训练平均提升2.3%,证明代码推理任务需要独立训练阶段。值得注意的是,即使仅使用50%训练数据,CODEI/O仍能保持83%的性能表现,展现出良好的数据效率。
多轮迭代分析显示,首轮反馈可修正10%错误响应,但第二轮改进有限,表明模型存在错误模式固化现象。在数据格式对比中,将查询与参考代码置于提示、CoT置于响应的结构表现最佳,较标准代码生成任务格式提升4.1%平均分。这些发现为代码驱动的推理能力优化提供了重要方法论支持,证实了结构化代码数据在突破LLM推理瓶颈中的关键作用。
原文和模型
【原文链接】 阅读原文 [ 4624字 | 19分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★