标签:后训练扩展

北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式

机器之心AIxiv专栏致力于发布学术和技术内容,已报道2000多篇涵盖全球顶级实验室的文章,促进了学术交流。OpenAI的o1模型在数学、代码和长程规划等领域取得显...