一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源

AIGC动态2个月前发布 QbitAI
420 0 0
一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源

 

文章摘要


【关 键 词】 视频理解多模态开源模型长视频处理性能优化

智源研究院联合多所高校发布了超长视频理解大模型Video-XL,该模型利用语言模型的原生能力对长视觉序列进行压缩,不仅保留了短视频理解的能力,还在长视频理解上展现了出色的泛化能力。Video-XL在多个主流长视频理解基准评测的多项任务中排名第一,仅需一块80G显存的显卡即可处理2048帧输入,实现了效率与性能之间的良好平衡。

长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能的关键一步。现有的多模态大模型在处理10分钟以上的超长视频时,仍然面临性能差和效率低的双重挑战。Video-XL的模型代码已开源,为长视频理解提供了新的解决方案。

Video-XL的整体模型结构与主流的多模态大模型相似,由视觉编码器、视觉-语言映射器和语言模型构成。特别之处在于,为了处理各种格式的多模态数据,Video-XL建立了一个统一的视觉编码机制。针对多图和视频数据,将每帧分别输入视觉编码器;针对单图,将其划分为多个图像块,并将图像块输入视觉编码器进行编码。

Video-XL通过优化在压缩视觉信号下的生成质量进行训练,下一个Token的预测通过最小化标准的自回归损失进行计算。在预训练阶段,Video-XL使用Laion-2M数据集优化视觉语言连接器。在微调阶段,Video-XL充分利用了多模态大模型在各种多模态数据集上的能力。

Video-XL在多个主流视频理解评测基准上展现了卓越性能,其中在VNBench上准确率超过了目前最好的长视频模型大约10%。在MLVU的验证集上,Video-XL甚至在单项选择任务上超越了GPT-4o模型。此外,Video-XL在视频“大海捞针”测试中,以16倍压缩比和2048帧输入,达到了近95%的准确率,表明其在准确性和计算效率之间实现了最佳平衡。

Video-XL的模型代码已开源,以促进全球多模态视频理解研究社区的合作和技术共享。未来,Video-XL有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现出广泛的应用价值。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2845字 | 12分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...