LLM推理暴涨，数学逻辑开挂！ DeepSeek等华人团队新大招，Ai2大牛狂点赞

1,349 0 0

文章摘要

DeepSeek团队提出的CODEI/O方法通过代码输入/输出预测任务，显著提升了大型语言模型在多种推理任务中的表现。该方法将原始代码文件转换为可执行函数，并构建自然语言思维链（CoT）来预测输入输出关系，从而系统性地提取代码中蕴含的推理模式。研究团队从CodeMix、PyEdu-R等多样化代码源收集81万份原始文件，经预处理后生成350万条训练实例，覆盖逻辑流程编排、递归分解等核心推理技能。

数据构建流程包含三个关键环节：首先通过代码清理和重构提取核心逻辑功能，确保输入输出的JSON可序列化；随后设计基于规则的输入生成器，在约束条件下实现可扩展测试用例生成；最后通过DeepSeek-V2.5合成自然语言推理链，形成CODEI/O和CODEI/O++两类数据集。实验表明，CODEI/O++通过多轮反馈修正，在保持任务性能平衡的同时，将平均分数提升0.7%-1.2%。

在跨模型评估中，CODEI/O展现出显著优势。Qwen 2.5 7B和LLaMA 3.1 8B等模型在符号推理、科学推理等五大任务上均实现持续改进，其性能提升幅度超越OpenMathInstruct2等专业数学数据集的表现，验证了代码数据对广义推理能力的促进作用。消融实验揭示，输入/输出预测任务的平衡设计对性能提升至关重要，单独使用输入预测或输出预测会导致不同任务表现波动。

研究团队进一步验证了方法设计的有效性：当训练数据量从1/6增至全量时，模型在LeetCode-O等基准上的准确率提升达15%；两阶段训练策略相比单阶段混合训练平均提升2.3%，证明代码推理任务需要独立训练阶段。值得注意的是，即使仅使用50%训练数据，CODEI/O仍能保持83%的性能表现，展现出良好的数据效率。

多轮迭代分析显示，首轮反馈可修正10%错误响应，但第二轮改进有限，表明模型存在错误模式固化现象。在数据格式对比中，将查询与参考代码置于提示、CoT置于响应的结构表现最佳，较标准代码生成任务格式提升4.1%平均分。这些发现为代码驱动的推理能力优化提供了重要方法论支持，证实了结构化代码数据在突破LLM推理瓶颈中的关键作用。