标签:图像描述

英伟达开源「描述一切」模型,拿下7个基准SOTA

为了实现这些功能,DAM 采用了两个关键创新:焦点提示(focal prompt)和局部视觉骨干网络(localized vision backbone)。焦点提示通过提供完整图像和目标区...