首个开源世界模型！百万级上下文，长视频理解吊打GPT-4，UC伯克利华人一作

AIGC动态1年前 (2024)发布 AIera

3,280 0 0

文章摘要

【关键词】 世界模型、UC Berkeley、多模态性能、长视频理解、开源技术

UC Berkeley的研究人员最近开源了首个“世界模型”（LargeWorldModel，简称LWM），这是一个在多模态任务上表现出色的模型，特别是在长视频理解方面，其性能甚至超过了GPT-4。LWM模型通过使用RingAttention技术，成功地将上下文长度扩展到了1M token，这是一个非常显著的进步，因为它允许模型处理更长的序列数据。

LWM模型能够处理多种多模态任务，例如基于文本提示生成图像和视频，以及基于图像的对话。这些功能展示了LWM在理解和生成内容方面的强大能力。例如，它可以根据文本提示生成描述烟花爆炸或海浪拍打海岸的视频，也能够回答关于摄影最佳时间选择的问题，或者解释艺术作品的创造性转折。

LWM的开源受到了广泛欢迎，短时间内在GitHub上获得了大量的关注。模型的开源性质意味着开发者社区可以自由地使用和改进它，这可能会加速相关技术的发展。

在技术细节方面，LWM的训练分为两个阶段：上下文扩展和视觉语言培训。上下文扩展阶段使用Books3数据集，逐步增加上下文大小。视觉语言培训阶段则重点训练不同长度的视觉和视频内容。LWM模型的架构修改使其能够处理长视频序列，这是通过使用VQGAN将视频帧转换为token，然后将这些token与文本token结合进行自回归预测来实现的。

LWM模型的训练步骤是分阶段进行的，每个阶段都在增加模型的有效上下文长度。这个过程涉及到使用不同的数据集和过滤约束，以及对模型进行微调以适应不同的任务。此外，研究人员还构建了一个简单的QA数据集，用于训练模型在长上下文中进行聊天。

尽管LWM在长视频理解方面表现出色，但作者也承认，模型生成的答案可能并不总是准确的，并且在处理需要对视频有更高层次理解的复杂问题时仍存在挑战。不过，LWM的开发为未来在这一领域的研究提供了一个有价值的基础，有望推动长视频理解技术的进步。