标签:推理能力

1M长上下文,满血版Gemini 2.0又一次登上Chatbot Arena榜首

谷歌近期发布了Gemini 2.0 Flash Thinking推理模型的加强版,并在Chatbot Arena排行榜上再次登顶。谷歌AI负责人Jeff Dean表示,新版本引入了1M长的上下文,以...

开源版o1!中国大模型让国外陷入疯狂,成本猛降90%

DeepSeek开源的R1模型在多个测试中表现优异,超越了OpenAI的o1模型。在美国AIME 2024测试中,R1得分79.8,高于o1的79.2分;在MATH-500中,R1得分97.3,同样超...

450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了

加州大学伯克利分校天空计算实验室的研究团队NovaSky发布了Sky-T1-32B-Preview,这是一个32B推理模型,其训练成本不到450美元,显示出高级推理能力的复制可以...

极客说|微软 Phi 系列小模型和多模态小模型

本文介绍了微软在小模型(Small Language Models, SLMs)领域的研究成果,特别是Phi系列模型。随着大模型规模的扩大,训练和运行所需的计算资源日益紧张,小...

OpenAI官宣o3系列王者模型:能解最难的数学题,单个任务最高花费数千美元,越贵越好用!

OpenAI在“OpenAI 12 天”活动的尾声发布了两款新模型:o3和o3-mini,作为o1和o1-mini的继任者。o3系列模型在编码、数学和科学掌握、以及推理能力上表现出色,...

刚刚,OpenAI放出最后大惊喜o3,高计算模式每任务花费数千美元

OpenAI最近发布了新的推理系列模型o3和o3-mini,作为o1系列模型的继任者,这些模型在回答问题前会花费更多时间进行思考以提高准确率。o3系列模型在ARC-AGI基...

免费o1替代品来了!谷歌新发“王炸”推理大模型:思考速度碾压其他大模型,水平堪比理科博士

谷歌在其“Gemini 2.0 Flash Thinking”模型上取得了新进展,该模型以其卓越的推理能力而受到关注,能够通过“明确地展示自己的思维”来解决复杂问题,其水平与物...

Ilya Sutskever 在 NeurIPS 2024 的演讲:预训练时代已经结束了

在NeurIPS 2024会议上,Safe SuperIntelligence实验室创始人、原OpenAI联合创始人兼首席科学家Ilya Sutskever发表了题为《Sequence to sequence learning wit...

田渊栋团队论文火了!连续思维链优于CoT,打开LLM推理新范式

在认知科学领域,关于语言是否用于思考或交流的辩论一直存在。随着大型语言模型(LLM)和思维链(Chain of Thought, CoT)的兴起,语言已成为机器推理的默认...

很快OpenAI能证明陶哲轩错了?陶哲轩一句话,被OpenAI高管怼回去

OpenAI的最新o1模型在数学和代码能力上取得了显著提升,其中数学性能提升了36%。菲尔兹奖得主陶哲轩在与OpenAI研究高级副总Mark Chen的访谈中,讨论了o1推理...
1 2 3 5