文章摘要
【关 键 词】 世界模型、UC Berkeley、多模态性能、长视频理解、开源技术
UC Berkeley的研究人员最近开源了首个“世界模型”(LargeWorldModel,简称LWM),这是一个在多模态任务上表现出色的模型,特别是在长视频理解方面,其性能甚至超过了GPT-4。LWM模型通过使用RingAttention技术,成功地将上下文长度扩展到了1M token,这是一个非常显著的进步,因为它允许模型处理更长的序列数据。
LWM模型能够处理多种多模态任务,例如基于文本提示生成图像和视频,以及基于图像的对话。这些功能展示了LWM在理解和生成内容方面的强大能力。例如,它可以根据文本提示生成描述烟花爆炸或海浪拍打海岸的视频,也能够回答关于摄影最佳时间选择的问题,或者解释艺术作品的创造性转折。
LWM的开源受到了广泛欢迎,短时间内在GitHub上获得了大量的关注。模型的开源性质意味着开发者社区可以自由地使用和改进它,这可能会加速相关技术的发展。
在技术细节方面,LWM的训练分为两个阶段:上下文扩展和视觉语言培训。上下文扩展阶段使用Books3数据集,逐步增加上下文大小。视觉语言培训阶段则重点训练不同长度的视觉和视频内容。LWM模型的架构修改使其能够处理长视频序列,这是通过使用VQGAN将视频帧转换为token,然后将这些token与文本token结合进行自回归预测来实现的。
LWM模型的训练步骤是分阶段进行的,每个阶段都在增加模型的有效上下文长度。这个过程涉及到使用不同的数据集和过滤约束,以及对模型进行微调以适应不同的任务。此外,研究人员还构建了一个简单的QA数据集,用于训练模型在长上下文中进行聊天。
尽管LWM在长视频理解方面表现出色,但作者也承认,模型生成的答案可能并不总是准确的,并且在处理需要对视频有更高层次理解的复杂问题时仍存在挑战。不过,LWM的开发为未来在这一领域的研究提供了一个有价值的基础,有望推动长视频理解技术的进步。
原文和模型
【原文链接】 阅读原文 [ 2596字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★★