标签:强化学习

小红书大模型团队的探索与实践:从 0 到 1 构建自研 RLHF 框架

在人工智能技术快速发展的背景下,多模态大语言模型(MLLM)因其在图文理解、创作、知识推理及指令遵循方面的能力,成为数字化转型的重要推动力。小红书大模...

OpenAI科学家震惊TED大会:让AI模型思考20秒,提升10万倍性能!

在旧金山举行的TED AI大会上,OpenAI的高级研究科学家Noam Brown提出了一个创新理论,即通过让AI模型进行20秒的思考,可以实现相当于将模型扩大100,000倍并训...

揭秘 OpenR:首个类 o1 开源推理框架,增强大型语言模型复杂推理能力

由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学联合研究团队开发的首个类 o1 全链条训练框架「OpenR」已开源。OpenR 是...

首个o1复现开源RL框架OpenR来了,UCL、上交等高校联合团队发布

由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学联合研究的首个类o1全链条训练框架「OpenR」已开源,旨在提升大型语言模...

AI几小时设计芯片超越人类!谷歌AlphaChip登Nature,已设计出三代旗舰TPU

谷歌DeepMind推出了一款名为AlphaChip的AI系统,它能够利用强化学习原理,在数小时内设计出与人类专家水平相当或更优的芯片布局。AlphaChip的应用范围广泛,...

谷歌要干掉layout工程师?

DeepMind最近宣布,其人工智能技术AlphaChip已经在全球范围内的硬件中得到应用,加速并优化了芯片设计。AlphaChip利用深度强化学习的方法,显著提高了芯片布...

万字推演OpenAI o1 self-play RL 技术路线

曹宇在其文章中深入分析了OpenAI的新型自我博弈强化学习(RL)模型o1,该模型在数理推理领域取得了显著成绩,并提出了训练时计算(train-time compute)和测...

o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo

OpenAI的o1模型自问世以来,以其卓越的推理能力在人工智能领域引起了广泛关注。o1不仅在数学奥林匹克竞赛中表现出色,甚至在博士级别的科学问答中超越了人类...

强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作

在大语言模型(LLM)的研究领域,自我纠正能力一直是一个重要的研究方向。然而,现有的自我纠正训练方法通常依赖于多个模型或额外的监督,这限制了其实用性。...

OpenAI o1要跟,怎么跟?这个GitHub项目把解读、博客、相关论文一网打尽

在AI领域,OpenAI的o1模型发布引起了广泛关注,机器之心对此进行了深入报道,并提供了相关资源。北大对齐团队对o1模型进行了独家解读,强调了其在强化学习领...
1 2 3 4 5 6