单卡也能跑万帧!智源发布Video-XL-2,速度、效果、长度全拉满

AIGC动态2天前发布 AIera
106 0 0
单卡也能跑万帧!智源发布Video-XL-2,速度、效果、长度全拉满

 

文章摘要


【关 键 词】 长视频开源模型多模态效率优化应用场景

智源研究院近日发布了新一代超长视频理解模型Video-XL-2,该模型在长视频理解任务中表现出色,显著提升了多模态大模型对长视频内容的理解能力。Video-XL-2在MLVU、Video-MME、LVBench等主流评测基准上达到了同参数规模开源模型的领先水平,并在处理长度与速度上实现了全面优化。相较于上一版本的Video-XL,新模型支持在单张显卡上高效处理长达万帧的视频输入,编码2048帧视频仅需12秒,显著加速了长视频理解流程。

在模型架构设计上,Video-XL-2主要由视觉编码器、动态Token合成模块(DTS)以及大语言模型(LLM)三个核心组件构成。视觉编码器采用SigLIP-SO400M对输入视频进行逐帧处理,将每一帧编码为高维视觉特征。DTS模块对这些视觉特征进行融合压缩,并建模其时序关系,以提取更具语义的动态信息。处理后的视觉表征通过平均池化与多层感知机(MLP)进一步映射到文本嵌入空间,实现模态对齐。最终,对齐后的视觉信息输入至Qwen2.5-Instruct,以实现对视觉内容的理解与推理,并完成相应的下游任务。

在训练策略上,Video-XL-2采用了四阶段渐进式训练的设计,逐步构建其强大的长视频理解能力。前两个阶段主要利用图像/视频-文本对,完成DTS模块的初始化与跨模态对齐;第三阶段引入更大规模、更高质量的图像与视频描述数据,初步奠定模型对视觉内容的理解能力;第四阶段在大规模、高质量且多样化的图像与视频指令数据上进行微调,使Video-XL-2的视觉理解能力得到进一步提升与强化。

此外,Video-XL-2还系统性设计了效率优化策略。分段式的预装填策略将超长视频划分为若干连续的片段,在每个片段内部使用稠密注意力机制进行编码,而不同片段之间则通过时间戳传递上下文信息。该设计显著降低了预装填阶段的计算成本与显存开销。基于双粒度KV的解码机制在推理过程中,模型会根据任务需求,选择性地对关键片段加载完整的KVs,而对其他次要片段仅加载降采样后的稀疏的KVs,有效缩短了推理窗口长度,从而大幅提升解码效率。

在模型具体表现方面,Video-XL-2在MLVU、VideoMME和LVBench等主流长视频评测基准上全面超越现有所有轻量级开源模型,达成当前最先进性能(SOTA),相较第一代Video-XL实现了显著提升。在MLVU和LVBench上,Video-XL-2的性能已接近甚至超越了如Qwen2.5-VL-72B和LLaVA-Video-72B等参数规模高达720亿的大模型。此外,在时序定位任务中,Video-XL-2也表现出色,在Charades-STA数据集上取得了领先的结果,进一步验证了其在多模态视频理解场景中的广泛适用性与实际价值。

在视频长度方面,Video-XL-2展现出显著优势。在单张24GB消费级显卡上,Video-XL-2可处理长达千帧的视频;而在单张80GB高性能显卡上,模型更支持万帧级视频输入,远超现有主流开源模型。在速度上,Video-XL-2仅需12秒即可完成2048帧视频的预填充,其预填充时间与输入帧数之间呈现出近似线性增长,体现了其出色的可扩展性。

得益于出色的视频理解能力与对超长视频的高效处理性能,Video-XL-2在多种实际应用场景中展现出很高的应用潜力。例如,它可广泛应用于影视内容分析、剧情理解、监控视频中的异常行为检测与安全预警等任务,为现实世界中的复杂视频理解需求提供高效、精准的技术支撑。

原文和模型


【原文链接】 阅读原文 [ 1776字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...