揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

AIGC动态1年前 (2024)发布 almosthuman2014

2,541 0 0

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

文章摘要

【关键词】 GPT-4V、多模态模型、视觉编码、漏洞分析、LLaVA-UHD

GPT-4V的推出标志着多模态大模型研究的新篇章，它在多模态问答、推理和交互等领域展现了卓越的能力。

然而，一些研究揭示了GPT-4V在基本能力上的不足，尤其是在处理图像任务时的计数问题。微软的技术报告和清华大学、新加坡国立大学以及中国科学院大学的研究都指出了GPT-4V在视觉编码上的漏洞。

研究者通过实验发现，GPT-4V在处理图像时，如果图像分辨率无法被512整除，会导致图像切片重叠，从而引发计数错误。这种重叠导致的错误可能是数量翻倍或四倍。此外，图像分辨率的变化也会影响GPT-4V的计数回答，表现为显著的相位变化。这些发现表明，高分辨率图像处理时的重叠切片是导致错误响应的原因之一。

LLaVA-1.5作为一个受欢迎的开源多模态大模型，也存在视觉编码漏洞。为了处理不同长宽比的图像，LLaVA-1.5会将图像填充为正方形，这种方法导致了计算资源的浪费，并且模型无法区分填充像素和原始图像的实际部分。研究者通过实验展示了LLaVA-1.5在处理填充图像时的问题，模型会忽略填充区域，只关注中心矩形的颜色。

为了解决这些问题，研究者提出了LLaVA-UHD模型，它能够对任意长宽比的高分辨率图像进行编码，并在多个评测基准上实现了性能提升，同时降低了训练和推理的计算开销。LLaVA-UHD包括图像模块化策略、压缩模块和空间装饰模式，这些设计使得模型能够更高效地处理高分辨率图像，并提供了全局语义信息。

LLaVA-UHD在处理高分辨率图像方面的能力得到了实验验证，它能够准确识别课表、海报和手机上的密集文字内容。未来，研究者计划探索更高分辨率的图像处理，并改进视觉编码策略，以实现图像片段之间的高效连接和全局信息交互。

最后，机器之心还宣布了即将举办的AI技术论坛，聚焦于视频生成技术、多模态大模型等前沿领域，旨在帮助企业和从业者了解最新的技术进展。