标签：自我博弈

清华&通院推出”绝对零”训练法，零外部数据大模型自我博弈解锁推理能力

“绝对零”是一种通过自我博弈训练预训练大模型的新方法，旨在提升模型的推理能力。该方法由清华、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员提出...

AIGC动态

4个月前

万字推演OpenAI o1 self-play RL 技术路线

曹宇在其文章中深入分析了OpenAI的新型自我博弈强化学习（RL）模型o1，该模型在数理推理领域取得了显著成绩，并提出了训练时计算（train-time compute）和测...

AIGC动态

12个月前