文章摘要
【关 键 词】 视觉分割、SAM模型、开源技术、AI数据集、技术创新
Meta公司在2023年4月5日首次开源了视觉分割模型SAM,该模型能够通过交互和自动化的方式对视频和图像中的元素进行分割,被誉为计算机视觉领域的重大突破。SAM模型在Github上获得了超过45000颗星的认可。继此之后,Meta进一步推出了SAM-2模型,不仅在原有基础上进行了架构、功能和准确率的大量更新,还支持Apache 2.0规则下的商业化使用,这标志着继Llama 3.1之后的又一次开源重要模型。
SAM-2模型的架构基于transformer模型,并引入了流式记忆机制,由图像编码器、记忆编码器、记忆注意力模块、提示编码器和掩模解码器等关键模块组成。图像编码器采用流式处理方法,能够处理任意长度的视频,显著提升了效率。记忆编码器和记忆注意力模块是SAM-2的创新之处,它们通过编码先前的预测和用户交互动作,存储记忆以影响后续帧的分割结果,同时利用这些记忆增强当前帧的特征表示,捕捉目标对象的动态变化。
SA-V训练数据集是Meta为支持SAM-2而开发的,包含51,000个真实世界视频和超过600,000个时空遮罩,规模大约是同类数据集的50倍。该数据集的开发分为三个阶段,第一阶段使用SAM模型辅助人类标注,第二阶段引入SAM 2 Mask以提高标注效率,第三阶段则利用SAM-2的完全功能,通过对象在时间维度上的记忆生成掩码预测,进一步提升标注速度。
SAM-2的开源地址为https://github.com/facebookresearch/segment-anything-2,提供了在线demo和数据集下载,为开发者提供了丰富的资源以构建更好的视觉模型。这一进展不仅推动了计算机视觉技术的发展,也为AIGC领域的专业社区带来了新的机遇和挑战。
原文和模型
【原文链接】 阅读原文 [ 1807字 | 8分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆