标签:推理
LLM又曝致命缺陷:根本不会看时钟!博士惊呆,准确率不及50%
最新研究揭示了AI在处理看似简单的任务时存在的显著认知缺陷,尤其是在读取时钟和判断日期方面。尽管AI在复杂任务如论文写作、绘画和考试中表现出色,但在这...
华为+DeepSeek,推理性能创新高!技术报告也公布出来了
华为昇腾在超大规模MoE模型推理部署领域取得了显著突破,其推理性能全面超越了英伟达的Hopper架构。这一成就主要归功于华为昇腾的“以数学补物理”策略,通过数...
LLM Inference 和 LLM Serving 视角下的 MCP
自从ChatGPT问世以来,大语言模型(LLM)相关技术对人工智能领域产生了深远影响,尤其是LLM推理(LLM Inference)和LLM服务(LLM Serving)的概念逐渐成为行...
首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开「降成本」秘诀
DeepSeek团队最新发布的论文《洞察 DeepSeek-V3:规模的挑战和对AI架构硬件的思考》探讨了如何通过软硬件协同设计实现经济高效的大规模训练和推理。随着OpenA...
蚂蚁武威:下一代「推理」模型范式大猜想
长思维链作为深度思考的一种实现方式,近年来成为研究下一代基础模型推理能力的热门方向。尽管R1模型展示了强大的性能,但其高维度和高能量的特性导致系统不...
微软开源新版ph4:媲美DeepSeek-R1,参数暴降48倍
微软近期在官网开源了三个新版Phi-4小参数模型,分别是Reasoning、Min-Reasoning和Reasoning-plus。这些模型的最大亮点之一是算力消耗极低,能够在消费级硬件...
超越DeepSeek-R1,英伟达开源新王登顶!14万H100小时训练细节全曝光
英伟达最新发布的Llama-Nemotron系列模型在推理性能和内存效率上超越了DeepSeek-R1,并且已经全面开源。这一系列模型包括LN-Nano 8B、LN-Super 49B和LN-Ultra...
o3一张图锁定地球表面坐标,AI看图猜地点战胜人类大师,奥特曼:这是我的「直升机」时刻
ChatGPT通过一组公开的prompt,展示了其在看图猜地点任务中的惊人能力。在一系列测试中,ChatGPT不仅能够根据图像中的细节推断出大致的地理位置,甚至在某些...
Windsurf团队关于Agent的认知,相当精彩
Agent 系统的核心概念可以简单理解为一个接受用户输入,并交替执行两种调用的系统:大语言模型(LLM)和工具。LLM 会根据用户输入、上下文信息以及对话内容,...
小米入局大模型赛道!开源MiMo-7B,性能超o1-mini
小米近日宣布进军大模型领域,并开源了一款名为MiMo-7B的模型。尽管MiMo-7B仅有70亿参数,但其在多个测试中表现优异,在数学AIME24/25中分别达到68.2分和55.4...