标签：偏好学习

北大李戈团队提出新代码模型对齐方法 CodeDPO：显著提升代码准确性与执行效率

北京大学李戈教授团队与字节跳动合作，提出了一种新的代码生成优化框架CodeDPO，旨在解决现有训练方法如监督微调（SFT）在代码生成中的局限性。CodeDPO框架通...

AIGC动态

9个月前