标签:偏好学习

北大李戈团队提出新代码模型对齐方法 CodeDPO:显著提升代码准确性与执行效率

北京大学李戈教授团队与字节跳动合作,提出了一种新的代码生成优化框架CodeDPO,旨在解决现有训练方法如监督微调(SFT)在代码生成中的局限性。CodeDPO框架通...