一张显卡看遍天下电影！智源联合高校开源Video-XL打破长视频理解极限，95%准确率刷爆纪录

1,910 0 0

文章摘要

智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL，这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL利用语言模型的原生能力对长视觉序列进行压缩，不仅保留了短视频理解的能力，还在长视频理解上取得了显著的成果。在多个主流长视频理解基准评测的多项任务中，Video-XL均排名第一，且在效率与性能之间实现了良好的平衡，仅需一块80G显存的显卡即可处理2048帧输入，视频“大海捞针”任务中准确率高达95%。

Video-XL的模型结构包括视觉编码器、视觉-语言映射器和语言模型，特别之处在于建立了统一的视觉编码机制，以处理多模态数据。该模型通过优化在压缩视觉信号下的生成质量进行训练，使用Laion-2M数据集优化视觉语言连接器，并在微调阶段利用MLLM在各种多模态数据集上的能力。为了增强长视频理解能力，开发了自动化的长视频数据生产流程，并创建了视觉线索顺序数据集VICO。

在实验中，Video-XL在多个主流视频理解评测基准上展现了卓越性能，尤其在超长视频理解任务中，通过视频“大海捞针”测试评估其处理超长上下文的能力，达到了近95%的准确率。此外，消融实验验证了所提出的视觉压缩机制和VICO数据集的有效性。未来，Video-XL有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现出广泛的应用价值。