标签：图像编码

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

DynRefer是一种新型的区域级多模态理解模型，由中国科学院大学LAMP实验室的研究人员开发，旨在通过模拟人类视觉认知过程，提高区域级多模态任务的识别能力。...

AIGC动态

1年前 (2024)

港大字节提出多模态大模型新范式，模拟人类先感知后认知，精确定位图中物体

多模态大模型（MLLM）在视觉任务中展现出强大的认知理解能力，但目前大多数模型局限于单向的图像理解，难以在图像上进行精确定位。这一问题限制了模型在图像...

AIGC动态

1年前 (2024)