标签:感知定位

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

多模态大模型(MLLM)在视觉任务中展现出强大的认知理解能力,但目前大多数模型局限于单向的图像理解,难以在图像上进行精确定位。这一问题限制了模型在图像...