标签:推理能力

超过DeepSeek、o3,双思维模型Claude 3.7来了

著名大模型平台Anthropic推出的Claude 3.7 Sonnet首次引入双思维模式,通过标准与扩展两种思考机制实现差异化响应。标准思考模式适用于即时问答场景,例如直...

10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现

荷兰开发者Raz采用轻量级强化学习算法Reinforce-Lite,以低于10美元的成本在3B参数规模的模型上复现了DeepSeek的'顿悟时刻'。该方法通过简化传统强化学习的复...

揭秘多轮越狱攻击新框架:RACE 如何利用大模型推理能力突破安全防线?

来自北京航空航天大学等机构的研究团队提出RACE多轮越狱攻击框架,通过将有害查询转化为良性推理任务,成功突破多个主流大模型的安全防线。实验结果显示,该...

20万卡吞金兽 Grok 3 炸裂登场,卡帕西大神亲测:性能超过DeepSeek R1!马斯克:短期不开源

埃隆·马斯克旗下的人工智能公司xAI正式发布新一代AI模型Grok 3及其迷你版本Grok 3-mini,宣称这是迄今为止最强大的AI模型。Grok 3的核心突破在于首次将推理能...

赶紧放弃强化学习?!Meta 首席 AI 科学家杨立昆喊话:当前推理方式会“作弊”,卷大模型没有意义!

Meta首席AI科学家杨立昆在AI Action Summit 2025的演讲中指出,当前基于大语言模型的人工智能系统存在根本性缺陷。现有模型通过自回归生成token的暴力计算范...

“李飞飞团队 50 美元炼出 DeepSeek R1”被质疑,上海交大本科生新“低成本推理”或成新宠!

斯坦福大学和华盛顿大学的研究人员开发了一个名为 s1 的人工智能推理模型,该模型以不到 50 美元的云计算成本成功训练而成,并在数学和编码能力测试中表现出...

为什么说DeepSeek的R1-Zero比R1更值得关注?

DeepSeek发布的R1-Zero和R1两个模型在ARC-AGI-1上的得分与OpenAI的o1系统低计算量版本相当,显示出纯LLM scaling的局限性。R1-Zero特别值得关注,因为它完全...

1M长上下文,满血版Gemini 2.0又一次登上Chatbot Arena榜首

谷歌近期发布了Gemini 2.0 Flash Thinking推理模型的加强版,并在Chatbot Arena排行榜上再次登顶。谷歌AI负责人Jeff Dean表示,新版本引入了1M长的上下文,以...

开源版o1!中国大模型让国外陷入疯狂,成本猛降90%

DeepSeek开源的R1模型在多个测试中表现优异,超越了OpenAI的o1模型。在美国AIME 2024测试中,R1得分79.8,高于o1的79.2分;在MATH-500中,R1得分97.3,同样超...

450美元训练一个「o1-preview」?UC伯克利开源32B推理模型Sky-T1,AI社区沸腾了

加州大学伯克利分校天空计算实验室的研究团队NovaSky发布了Sky-T1-32B-Preview,这是一个32B推理模型,其训练成本不到450美元,显示出高级推理能力的复制可以...
1 2 3 4 7