标签:推理
LLM「想太多」有救了!高效推理让大模型思考过程更精简
大语言模型(LLM)在复杂推理任务中表现出色,但常常出现「过度思考」的现象,导致推理过程冗长且效率低下。这种「过度思考」不仅增加了计算资源的消耗,还影...
7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?
香港大学与华为诺亚方舟实验室合作开发的扩散推理模型 Dream 7B,在开源扩散语言模型领域取得了新的突破,成为当前性能最佳的模型。该模型在通用能力、数学推...
实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?
最近,针对国内外7款大模型进行了一场数学能力测试,测试题目主要来自“阿里巴巴全球数学竞赛”和“中国数学奥林匹克(CMO)”的真题,涵盖了多个数学领域,包括...
第一个免费可用的智能Agent产品全量上线,中国公司智谱打造,推理模型比肩R1
国产AI领域迎来了一款名为「AutoGLM 沉思」的自主智能体产品,由中国公司智谱推出。这款产品不仅具备深度研究能力,还能动手操作,标志着AI技术从单纯的语言...
OpenAI破大防,拒绝率从98%骤降2%!陈怡然团队提出全新思维链劫持攻击
随着大型推理模型(LRMs)的快速发展,其推理能力和安全性之间的平衡成为关键问题。近期研究表明,模型的安全审查透明化反而成为其弱点,攻击者可以通过「思...
谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西
谷歌最新发布的AI模型Gemini 2.5 Pro被其CEO称为“谷歌有史以来最智能的AI模型”。该模型在多个基准测试中表现出色,尤其是在推理能力、科学和数学能力方面。在...
DeepSeek V3“小版本更新”背后,V3和R1正在融合成一个模型
DeepSeek在3月24日发布了V3的小版本迭代“DeepSeek-V3-0324”,并在3月25日晚发布了官方报告。此次更新主要聚焦于推理能力、前端开发能力、中文写作能力和中文...
32B本地部署!阿里开源最新多模态模型:主打视觉语言,数学推理也很强
阿里通义千问Qwen发布了最新视觉语言模型Qwen2.5-VL-32B-Instruct,进一步扩展了其开源家族的产品线。该模型在尺寸和性能之间取得了平衡,能够在本地运行,并...
DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑
DeepSeek-V3-0324的发布标志着AI领域的一次重要升级。该模型拥有6850亿参数,虽然参数增幅不大,但在代码和数学推理能力上取得了显著提升。特别是在代码领域...
万字探讨Agent发展真方向:模型即产品,Agent的未来要靠模型而不是Workflow
Alexander Doria,知名 AI 工程师和 Pleias 的联合创始人,近期发表了两篇文章,深入探讨了 AI 智能体的未来发展方向。他明确指出,未来的 AI 智能体将依赖于...