标签:性能对比

华为与哈工深等最新研究成果:SPA-Bench,手机操控智能体评估新标准

华为诺亚方舟实验室与哈尔滨工业大学(深圳)联合提出了SPA-Bench(SmartPhone Agent Benchmark),一个全新的评估框架,旨在解决现有手机智能体基准测试的局...

Claude 3.5两小时暴虐50多名专家,编程10倍速飙升!但8小时曝出惊人短板

最新研究显示,在2小时的研发任务中,AI智能体Claude 3.5 Sonnet和o1-preview在7项具有挑战性的研究工程中击败了50多名人类专家。AI编程速度能以超越人类10倍...

耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA

ASU团队的最新研究对OpenAI的新型大推理模型o1-preview进行了全面评估,发现其在推理规划能力方面表现卓越,但成本高昂。研究使用了PlanBench测试基准,结果...

一张图看懂大模型性价比:能力、价格、并发量全面PK

当前,国内云厂商的大模型价格战正酣,部分模型价格降幅高达99%,甚至有的模型实现免费提供。然而,在这场看似遍地的黄金降价潮中,实则隐藏着诸多细节和考量...

别再说国产大模型技术突破要靠 Llama 3 开源了

近日,Meta发布了开源大模型Llama 3的8B和70B版本,引起了AI界的广泛关注。Meta声称Llama 3在多种行业基准测试上展现了最先进的性能,并提供了包括改进的推理...

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

在大会上,展示了其子公司的最新一代人工智能加速器,预计将于推出。Gaudi 3的亮点在于其的,认为这足以让其在占有一席之地。内部基准测试显示,在性能上超过...

超越Claude-2.1和GPT-3.5-Turbo,Qwen1.5还藏了哪些黑科技?32K Tokens上下文支持只是开胃菜!

Qwen1.5是一款开源的人工智能模型,具有多种大小以满足不同的需求。尽管在对齐方面尚未超越GPT-4-Turbo,但在MT-Bench和Alpaca-Eval v2测试中,Qwen1.5的表现...