文章摘要
【关 键 词】 视频理解、长视频处理、模型性能、视觉编码、多模态数据
智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL,这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL利用语言模型的原生能力对长视觉序列进行压缩,不仅保留了短视频理解的能力,还在长视频理解上取得了显著的成果。在多个主流长视频理解基准评测的多项任务中,Video-XL均排名第一,且在效率与性能之间实现了良好的平衡,仅需一块80G显存的显卡即可处理2048帧输入,视频“大海捞针”任务中准确率高达95%。
Video-XL的模型结构包括视觉编码器、视觉-语言映射器和语言模型,特别之处在于建立了统一的视觉编码机制,以处理多模态数据。该模型通过优化在压缩视觉信号下的生成质量进行训练,使用Laion-2M数据集优化视觉语言连接器,并在微调阶段利用MLLM在各种多模态数据集上的能力。为了增强长视频理解能力,开发了自动化的长视频数据生产流程,并创建了视觉线索顺序数据集VICO。
在实验中,Video-XL在多个主流视频理解评测基准上展现了卓越性能,尤其在超长视频理解任务中,通过视频“大海捞针”测试评估其处理超长上下文的能力,达到了近95%的准确率。此外,消融实验验证了所提出的视觉压缩机制和VICO数据集的有效性。未来,Video-XL有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现出广泛的应用价值。
原文和模型
【原文链接】 阅读原文 [ 2830字 | 12分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...