统一多模态框架GPT4Video不仅能看懂视频也能生成视频（附视频demo）

AIGC动态2年前 (2024)发布 admin

2,886 0 0

作者信息

【原文作者】 AI工程化
【作者简介】 专注于AI领域（大模型、MLOPS/LLMOPS 、AI应用开发、AI infra）前沿产品技术信息和实践经验分享。
【微信号】 ai-engineering

文章摘要

腾讯人工智能实验室与悉尼大学在十一月发布了一项最新研究，提出了一种名为GPT4Video的统一多模态框架。该框架不仅能够理解多模态内容，如图片和视频，还能够生成多模态内容，填补了当前多模态大模型在这一领域的空白。

GPT4Video的架构包括三个主要部分：视频编码阶段、LLM推理和视频生成。视频编码阶段采用冻结的ViT-L/14模型捕捉原始视频特征，并通过基于变换器的交叉注意层和两个可学习标记来浓缩信息。LLM推理部分由一个冻结的LLaMA模型驱动，并通过LoRA进行有效微调。最后，LLM生成的提示被用作ZeroScope视频生成模型的文本输入，以创建视频。

GPT4Video在视频理解和生成场景中都表现出了令人印象深刻的能力。它在视频问题解答任务中比Valley高出11.8%，在文本到视频生成任务中比NExt-GPT高出2.3%。此外，GPT4Video使LLM/MLLM具备了视频生成能力，无需额外的训练参数，并能灵活地与各种模型对接。最重要的是，GPT4Video在输入和输出端都能保持安全的对话。

定性和定量实验证明，GPT4Video有潜力成为一个有效、安全、类似人形机器人的视频助手，能够处理视频理解和生成场景。