标签:自我博弈

清华&通院推出”绝对零”训练法,零外部数据大模型自我博弈解锁推理能力

“绝对零”是一种通过自我博弈训练预训练大模型的新方法,旨在提升模型的推理能力。该方法由清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员提出...

万字推演OpenAI o1 self-play RL 技术路线

曹宇在其文章中深入分析了OpenAI的新型自我博弈强化学习(RL)模型o1,该模型在数理推理领域取得了显著成绩,并提出了训练时计算(train-time compute)和测...