
文章摘要
阿里发布了首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B,该模型能够处理文本、音频、图像和视频等多种模态,并实时生成文本和自然语音。Qwen2.5-Omni-7B在OmniBench评测中刷新了记录,表现优于谷歌Gemini-1.5-Pro等同类模型,同时在单模态任务如语音识别、翻译、音频理解、图像推理、视频理解和语音生成中也表现出色。该模型轻量且开源,采用Apache2.0协议,开发者和企业可免费在魔搭社区或Hugging Face下载商用。
Qwen2.5-Omni-7B采用了Thinker-Talker双核架构,其中Thinker负责处理和理解多模态输入信息,生成高层语义表征和文本内容,而Talker则负责流畅地合成离散语音tokens。这种架构使得模型能够作为一个紧密结合的单一模型运行,支持端到端的训练和推理。此外,团队还提出了新的位置编码算法TMRoPE和Position Embedding融合音视频技术,进一步提升了模型的多模态处理能力。
在实测中,Qwen2.5-Omni-7B展现了强大的多模态交互能力,能够胜任数学家教、论文解释、艺术指导等多种任务。模型在商品界面和优惠政策理解方面表现出色,响应速度快且引导用户继续提问。目前,Qwen Chat上已支持该模型的AI语音和视频通话功能,尽管视频通话仍处于Beta测试版,每次通话限时3分钟。
阿里与苹果的合作也引发了广泛关注,Qwen2.5-Omni-7B的开源预示着多模态大模型在端侧部署的潜力。该模型已吸引超90%国产手机品牌接入,包括OPPO、vivo、荣耀、传音等,以及众多汽车品牌和AI硬件产品。阿里通义团队在过去一年中累计开源了200多款模型,涵盖了从0.5B到110B的全尺寸范围,模型类型覆盖文本生成、视觉理解与生成、语音理解与生成、文生图及视频模型等全模态领域。
未来,通义千问Qwen团队计划进一步增强模型对语音指令的遵循能力,并提升音视频协同理解能力,持续拓展多模态能力边界,发展全面的通用模型。Qwen2.5-Omni-7B的开源和应用,标志着多模态大模型在端侧部署和实际应用中的重大突破。
原文和模型
【原文链接】 阅读原文 [ 2205字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★