标签:推理能力
震撼预警:满血版o1倒计时!奥特曼完整专访流出:o系列疯狂迭代,马上起飞
OpenAI即将推出的满血版o1模型在科技圈引起了广泛关注。该模型预计将具备函数调用、开发者消息、结构化输出和流式传输等能力,可能成为OpenAI历史上的重大突...
Transformer能否推理引争议,DeepMind连夜更新论文开源数据集:Transformer真的很强
DeepMind最近的研究在人工智能领域引起了广泛关注,他们训练了一个仅270M大小的Transformer模型,该模型在下棋任务中展现出了大师级的表现,且无需依赖搜索算...
我们能够让开源小模型变得比人类更聪明吗
本文由安全研究员Harish SG撰写,旨在探讨如何提升开源大语言模型(LLM)的推理能力,以期达到或超越闭源模型的性能。Harish SG是德克萨斯大学达拉斯分校网络...
苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑
苹果研究者的最新研究对大型语言模型(LLM)的推理能力提出了质疑。研究发现,无论是闭源的OpenAI GPT-4o和o1模型,还是开源的Llama、Phi、Gemma和Mistral等...
大模型步入「推理Scaling」时代,SambaNova如何挑战英伟达的霸主地位?
OpenAI发布的o1模型在AI领域引起了巨大震动,它不仅能够处理复杂问题,还具备出色的通用推理能力。o1模型无需专门训练即可在数学奥赛中获得金牌,并在博士级...
英伟达开源新王登基!70B刷爆SOTA,击败GPT-4o只服OpenAI o1
英伟达最近开源了一款名为Nemotron-70B的AI模型,该模型在多个基准测试中超越了包括GPT-4和Claude 3.5 Sonnet在内的140多个开闭源模型,仅次于OpenAI的o1模型...
LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和
OpenAI最近发布的o1模型在通用推理能力方面取得了显著进展,但在规划能力方面仍有待提升。亚利桑那州立大学(ASU)的研究团队通过PlanBench基准测试评估了当...
万字推演OpenAI o1 self-play RL 技术路线
曹宇在其文章中深入分析了OpenAI的新型自我博弈强化学习(RL)模型o1,该模型在数理推理领域取得了显著成绩,并提出了训练时计算(train-time compute)和测...
o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo
OpenAI的o1模型自问世以来,以其卓越的推理能力在人工智能领域引起了广泛关注。o1不仅在数学奥林匹克竞赛中表现出色,甚至在博士级别的科学问答中超越了人类...
万字长文解析OpenAI o1 Self-Play RL技术路线
OpenAI最近推出的Self-Play RL新模型o1在数理推理领域取得了显著成绩,并提出了train-time compute和test-time compute两个新的RL Scaling Law。o1是一个多模...