刚刚，Meta开源「分割一切」2.0模型，视频也能分割了

AIGC动态1年前 (2024)发布 almosthuman2014

2,254 0 0

文章摘要

Meta最近在SIGGRAPH上宣布了Segment Anything Model 2（SAM 2）的发布，这是对去年4月发布的“分割一切模型”的重大升级。SAM 2能够实现对静态图像和动态视频内容的实时、可提示的对象分割，将图像和视频分割功能统一到一个系统中。这一进步不仅支持各种不同的用例，而且无需自定义适配，即使是之前未见过的对象和视觉域也能进行分割。

SAM 2的架构采用了创新的流式内存设计，使其能够按顺序处理视频帧，特别适合实时应用。该模型在图像分割准确率方面超越了之前的功能，并在视频分割性能上实现了比现有工作更好的效果，同时所需的交互时间减少了三分之一。尽管模型庞大，但Meta展示了整个行业在计算效率方面的进步，SAM 2可以在不借助数据中心的情况下运行。

为了训练这一模型，Meta发布了一个大型带注释数据库，包括大约51,000个真实世界视频和超过600,000个masklets，这个数据库在视频数量和注释数量上都大大超过了现有最大的视频分割数据集。此外，还有一个包含超过100,000个“内部可用”视频的数据库也用于训练，但没有公开。SAM 2将开源并免费使用，并在Amazon SageMaker等平台上托管。

SAM 2的设计允许在任何视频帧中选择和细化对象，通过输入提示来定义目标对象并预测分割掩码。它还能够处理视频中对象的运动、变形、遮挡、光照变化等挑战。为了提高效率，Meta采用了流式架构，一次处理一个视频帧并将有关分割对象的信息存储在记忆中。这种设计允许实时处理任意长的视频。

Meta还构建了SA-V，这是目前最大的视频分割数据集，拥有超过600,000个masklet注释，覆盖了地理上不同的真实场景。这些数据集的建立和SAM 2的开发，展示了Meta在视频分割领域的领先地位和对开源AI的承诺。

尽管SAM 2在图像和短视频的对象分割方面表现出色，但在摄像机视角剧烈变化、长时间遮挡、拥挤场景或长视频中，它可能会失去对对象的追踪。此外，当目标对象只在一帧中指定时，SAM 2可能会混淆对象，无法正确分割目标。对于复杂的快速运动对象，SAM 2有时会漏掉一些细节，而且预测结果在帧之间可能不稳定。尽管如此，SAM 2的发布为视频分割领域带来了新的突破，展示了AI技术在提高生产力、创造力和生活质量方面的潜力。