标签:推理能力

揭秘多轮越狱攻击新框架:RACE 如何利用大模型推理能力突破安全防线?

来自北京航空航天大学等机构的研究团队提出RACE多轮越狱攻击框架,通过将有害查询转化为良性推理任务,成功突破多个主流大模型的安全防线。实验结果显示,该...

20万卡吞金兽 Grok 3 炸裂登场,卡帕西大神亲测:性能超过DeepSeek R1!马斯克:短期不开源

埃隆·马斯克旗下的人工智能公司xAI正式发布新一代AI模型Grok 3及其迷你版本Grok 3-mini,宣称这是迄今为止最强大的AI模型。Grok 3的核心突破在于首次将推理能...

赶紧放弃强化学习?!Meta 首席 AI 科学家杨立昆喊话:当前推理方式会“作弊”,卷大模型没有意义!

Meta首席AI科学家杨立昆在AI Action Summit 2025的演讲中指出,当前基于大语言模型的人工智能系统存在根本性缺陷。现有模型通过自回归生成token的暴力计算范...

“李飞飞团队 50 美元炼出 DeepSeek R1”被质疑,上海交大本科生新“低成本推理”或成新宠!

斯坦福大学和华盛顿大学的研究人员开发了一个名为 s1 的人工智能推理模型,该模型以不到 50 美元的云计算成本成功训练而成,并在数学和编码能力测试中表现出...

为什么说DeepSeek的R1-Zero比R1更值得关注?

DeepSeek发布的R1-Zero和R1两个模型在ARC-AGI-1上的得分与OpenAI的o1系统低计算量版本相当,显示出纯LLM scaling的局限性。R1-Zero特别值得关注,因为它完全...

1M长上下文,满血版Gemini 2.0又一次登上Chatbot Arena榜首

谷歌近期发布了Gemini 2.0 Flash Thinking推理模型的加强版,并在Chatbot Arena排行榜上再次登顶。谷歌AI负责人Jeff Dean表示,新版本引入了1M长的上下文,以...

开源版o1!中国大模型让国外陷入疯狂,成本猛降90%

DeepSeek开源的R1模型在多个测试中表现优异,超越了OpenAI的o1模型。在美国AIME 2024测试中,R1得分79.8,高于o1的79.2分;在MATH-500中,R1得分97.3,同样超...

450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了

加州大学伯克利分校天空计算实验室的研究团队NovaSky发布了Sky-T1-32B-Preview,这是一个32B推理模型,其训练成本不到450美元,显示出高级推理能力的复制可以...

极客说|微软 Phi 系列小模型和多模态小模型

本文介绍了微软在小模型(Small Language Models, SLMs)领域的研究成果,特别是Phi系列模型。随着大模型规模的扩大,训练和运行所需的计算资源日益紧张,小...

OpenAI官宣o3系列王者模型:能解最难的数学题,单个任务最高花费数千美元,越贵越好用!

OpenAI在“OpenAI 12 天”活动的尾声发布了两款新模型:o3和o3-mini,作为o1和o1-mini的继任者。o3系列模型在编码、数学和科学掌握、以及推理能力上表现出色,...
1 2 3 5