一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录

AIGC动态4周前发布 AIera
250 0 0
一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录

 

文章摘要


【关 键 词】 视频理解长视频处理模型性能视觉编码多模态数据

智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL,这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL利用语言模型的原生能力对长视觉序列进行压缩,不仅保留了短视频理解的能力,还在长视频理解上取得了显著的成果。在多个主流长视频理解基准评测的多项任务中,Video-XL均排名第一,且在效率与性能之间实现了良好的平衡,仅需一块80G显存的显卡即可处理2048帧输入,视频“大海捞针”任务中准确率高达95%。

Video-XL的模型结构包括视觉编码器、视觉-语言映射器和语言模型,特别之处在于建立了统一的视觉编码机制,以处理多模态数据。该模型通过优化在压缩视觉信号下的生成质量进行训练,使用Laion-2M数据集优化视觉语言连接器,并在微调阶段利用MLLM在各种多模态数据集上的能力。为了增强长视频理解能力,开发了自动化的长视频数据生产流程,并创建了视觉线索顺序数据集VICO。

在实验中,Video-XL在多个主流视频理解评测基准上展现了卓越性能,尤其在超长视频理解任务中,通过视频“大海捞针”测试评估其处理超长上下文的能力,达到了近95%的准确率。此外,消融实验验证了所提出的视觉压缩机制和VICO数据集的有效性。未来,Video-XL有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现出广泛的应用价值。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 2830字 | 12分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...