这个扩散LLM太快了!没有「请稍后」,实测倍速于Gemini 2.5 Flash

文章摘要
【关 键 词】 扩散模型、LLM、实时响应、语言生成、性能测试
Inception Labs推出的Mercury是首款专为聊天应用量身定制的商业级扩散LLM,标志着扩散模型在语言生成领域的重大突破。Mercury的核心优势在于其超快的速度和高效的性能,能够为对话提供实时响应,类似于Mercury Coder在代码生成中的表现。与传统的自回归模型相比,Mercury通过并行生成大幅提高了生成速度,并提供了更精细的控制、推理能力和多模态数据处理能力。这一创新使得Mercury在性能和效率上都达到了最先进的水平,特别是在实时语音和可交互性方面表现出色。
根据第三方测评机构Artificial Anlys的基准测试数据,Mercury在运行速度上提升了超过7倍,能够媲美GPT-4.1 Nano和Claude 3.5 Haiku等前沿模型。在实时语音应用中,Mercury的低延迟特性使其在翻译服务和呼叫中心代理等场景中表现优异,其延迟表现甚至优于在Cerebras系统上运行的Llama 3.3 70B大模型。此外,Mercury与微软NLWeb项目的结合,提供了闪电般快速、自然的对话体验,确保了流畅的用户交互。
尽管Mercury在生成速度上表现出色,但在生成质量上仍有提升空间。实际测试中,Mercury在回答经典问题和生成代码任务时,虽然速度极快,但生成的内容质量与Gemini 2.5 Flash和GPT 4.1 mini相比还有一定差距。例如,在生成一个1000字的TypeScript游戏脚本的任务中,Mercury在几秒内完成了任务,但生成的内容质量不如其他模型。此外,在一些复杂问题的回答上,如“红绿色盲女孩的父亲为什么崩溃”,Mercury未能给出正确答案。
总体而言,Mercury代表了扩散语言建模的未来发展方向,其超快的速度和高效的性能为实时应用提供了新的可能性。然而,如何在保持高速生成的同时提升生成质量,仍是Mercury需要进一步解决的问题。对于感兴趣的读者,Inception Labs已发布了Mercury的技术报告,并提供了试用地址,供用户亲自体验这一前沿技术。
原文和模型
【原文链接】 阅读原文 [ 1180字 | 5分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★☆☆☆☆