最强全模态模型Ola-7B横扫图像、视频、音频主流榜单,腾讯混元Research&清华&NTU联手打造

最强全模态模型Ola-7B横扫图像、视频、音频主流榜单,腾讯混元Research&清华&NTU联手打造

 

文章摘要


【关 键 词】 全模态模型模态对齐性能领先开源项目多模态评测

腾讯混元Research、清华大学i-Vision实验室与南洋理工大学S-Lab联合推出的Ola全模态语言模型,通过渐进式模态对齐策略实现了图像、视频和音频理解能力的突破。该模型仅含7B参数,却在OpenCompass图像基准测试中以72.6%的总体平均准确率超越GPT-4o等主流模型,在30B参数规模内排名第一;在VideoMME视频理解测试中达到68.4%的准确率,显著优于LLaVA-Video等专用模型;音频任务表现也接近专业模型水平,LibriSpeech语音识别词错误率低至3.1%。

模型设计的核心在于分阶段构建跨模态关联:首先通过2000万图文对建立视觉-语言基础能力,随后引入视频数据强化时空理解,最终利用包含音频的视频数据打通视听关联。训练过程中开发的局部-全局注意力池化层有效压缩视觉特征,而双编码器方案(Whisper-v3语音编码器+BEATs音乐编码器)实现了多类型音频处理。流式语音生成模块支持实时语音合成,通过标点检测实现逐句解码。

数据构建方面,团队创新性地开发了跨模态视频数据生成方法,利用视觉-语言模型从243k视频中生成视频-音频问答对,揭示帧序列与声学信息的内在联系。训练数据涵盖7.3M图像对话、1.9M视频对话及1.1M音频任务样本,其中视频数据不仅包含帧信息,还整合了伴随音频的跨模态关联。

实验结果表明,渐进式训练策略显著提升模型性能:在VideoMME测试中,加入音频输入使准确率从64.4%提升至68.4%,证明音频信息能补充视觉理解的不足。与现有全模态模型相比,Ola在MMBench-1.1图像测试达到84.3%,MMMU复杂推理任务取得57.0%,较同类模型提升超过10个百分点。模型开源性设计包含架构、代码及训练数据,为降低全模态研发门槛提供了完整解决方案。

该研究验证了跨模态联合学习的增效作用:视频数据作为视听桥梁,使音频识别性能提升4%;而7B参数规模下的优异表现,证实了高效架构设计的可行性。这些发现为开发通用人工智能模型提供了新思路,特别是在降低多模态对齐数据需求、平衡模态学习权重等方面具有重要参考价值。

原文和模型


【原文链接】 阅读原文 [ 3769字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...