标签:强化学习
AI几小时设计芯片超越人类!谷歌AlphaChip登Nature,已设计出三代旗舰TPU
谷歌DeepMind推出了一款名为AlphaChip的AI系统,它能够利用强化学习原理,在数小时内设计出与人类专家水平相当或更优的芯片布局。AlphaChip的应用范围广泛,...
谷歌要干掉layout工程师?
DeepMind最近宣布,其人工智能技术AlphaChip已经在全球范围内的硬件中得到应用,加速并优化了芯片设计。AlphaChip利用深度强化学习的方法,显著提高了芯片布...
万字推演OpenAI o1 self-play RL 技术路线
曹宇在其文章中深入分析了OpenAI的新型自我博弈强化学习(RL)模型o1,该模型在数理推理领域取得了显著成绩,并提出了训练时计算(train-time compute)和测...
o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo
OpenAI的o1模型自问世以来,以其卓越的推理能力在人工智能领域引起了广泛关注。o1不仅在数学奥林匹克竞赛中表现出色,甚至在博士级别的科学问答中超越了人类...
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
在大语言模型(LLM)的研究领域,自我纠正能力一直是一个重要的研究方向。然而,现有的自我纠正训练方法通常依赖于多个模型或额外的监督,这限制了其实用性。...
OpenAI o1要跟,怎么跟?这个GitHub项目把解读、博客、相关论文一网打尽
在AI领域,OpenAI的o1模型发布引起了广泛关注,机器之心对此进行了深入报道,并提供了相关资源。北大对齐团队对o1模型进行了独家解读,强调了其在强化学习领...
北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
机器之心AIxiv专栏致力于发布学术和技术内容,已报道2000多篇涵盖全球顶级实验室的文章,促进了学术交流。OpenAI的o1模型在数学、代码和长程规划等领域取得显...
OpenAI o1模型问世,五级AGI再突破!推理极限超博士,清北复旦华人立功
OpenAI最近推出了o1系列模型,包括o1-preview和o1-mini,这些模型在复杂推理、数学和编程问题上展现出了显著的性能提升。o1-preview模型将向ChatGPT的Plus和T...
大招憋出来了!OpenAI发布最强推理模型o1,它真的会思考,但API比4o贵好几倍
OpenAI 近日宣布推出了备受期待的推理模型 Strawberry,即 OpenAI o1-preview,以及一个更小、成本更低的版本 o1 mini。此次发布的模型被称为“预览版”,表明 ...
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
OpenAI在9月13日宣布了其最新AI大模型系列的发布,这标志着大模型技术发展的新起点。新模型专门设计用于解决复杂问题,能够执行复杂推理,超越了以往科学、代...