标签:性能对比
20万卡吞金兽 Grok 3 炸裂登场,卡帕西大神亲测:性能超过DeepSeek R1!马斯克:短期不开源
埃隆·马斯克旗下的人工智能公司xAI正式发布新一代AI模型Grok 3及其迷你版本Grok 3-mini,宣称这是迄今为止最强大的AI模型。Grok 3的核心突破在于首次将推理能...
马斯克正式发布Grok 3,这回真的把OpenAI干碎了。
马斯克在2025年2月的发布会上正式推出Grok 3人工智能模型,宣称其推理能力超越所有已发布的AI系统。该模型通过X平台向Premium用户即时开放使用,标志着xAI团...
首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了
OpenAI最近发布了o3-mini系列推理模型,旨在推动低成本推理的边界。该系列包含三个版本:low、medium和high,其中o3-mini和o3-mini-high已上线。o3系列模型针...
DeepSeek R1有没有赶上OpenAI o1? 八大场景测评结果出炉
DeepSeek-R1推理模型以其出色的性能和较低的训练成本,在AI竞技场中与OpenAI的o1模型和o1 Pro模型展开激烈竞争。在科技媒体arstechnica资深编辑的对比测试中...
GPU 这么厉害,我们为什么还要用 CPU?
一段2009年的Twitter视频通过CPU和GPU连接到发射彩弹的机器上进行绘画对决,直观展示了两者的区别。视频中,CPU用30秒画出一个笑脸,而GPU瞬间完成蒙娜丽莎的...
游戏表现仍落后前代和AMD,英特尔Core Ultra 200S修复被曝未达预期
英特尔的酷睿 Ultra 200S 系列处理器,代号为 Arrow Lake-S,在发布后因性能问题受到用户反馈。尽管英特尔随后发布了修复程序,但根据Tomshardware的实测结果...
华为与哈工深等最新研究成果:SPA-Bench,手机操控智能体评估新标准
华为诺亚方舟实验室与哈尔滨工业大学(深圳)联合提出了SPA-Bench(SmartPhone Agent Benchmark),一个全新的评估框架,旨在解决现有手机智能体基准测试的局...
Claude 3.5两小时暴虐50多名专家,编程10倍速飙升!但8小时曝出惊人短板
最新研究显示,在2小时的研发任务中,AI智能体Claude 3.5 Sonnet和o1-preview在7项具有挑战性的研究工程中击败了50多名人类专家。AI编程速度能以超越人类10倍...
耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA
ASU团队的最新研究对OpenAI的新型大推理模型o1-preview进行了全面评估,发现其在推理规划能力方面表现卓越,但成本高昂。研究使用了PlanBench测试基准,结果...
一张图看懂大模型性价比:能力、价格、并发量全面PK
当前,国内云厂商的大模型价格战正酣,部分模型价格降幅高达99%,甚至有的模型实现免费提供。然而,在这场看似遍地的黄金降价潮中,实则隐藏着诸多细节和考量...
1
2