GPT-4o 引爆小红书打卡潮，推动 Vision Pro想象，刷新微软、Adobe 产品线

AIGC动态2年前 (2024)发布 aitechtalk

3,576 0 0

GPT-4o 引爆小红书打卡潮，推动 Vision Pro想象，刷新微软、Adobe 产品线

文章摘要

GPT-4o 的多模态视觉能力引发了社交媒体上的热议，尤其是在小红书上，用户们热衷于测试其识别街景的能力。与其它多模态 AI 模型相比，GPT-4o 显示出了更高的准确性，即使在少量提示的情况下也能迅速给出正确答案。

尽管其识别结果存在一定的不稳定性，对提示语的依赖性较高，特别是在使用中文提问时，但其在网上的高曝光地点识别上表现突出。

此外，GPT-4o 的这种能力被认为在一定程度上超越了 Google Lens，表明其背后可能使用了大量的视觉数据进行训练。这不仅仅展示了规模法则在智能涌现中的重要作用，也引发了关于谷歌等公司是否能够凭借其丰富的地图和图像数据迎头赶上的讨论。

另一方面，GPT-4o 的能力可能与未来的智能硬件结合，例如 Apple Vision Pro 智能眼镜，从而在户外等场景中提供更加丰富的交互体验。OpenAI 已与视障人群志愿平台 Be My Eyes 合作，利用 GPT-4o 帮助视障人士更好地感知周围环境，这表明了 AI 在辅助技术上的潜力。

文章进一步探讨了 XR（混合现实）技术的未来，认为加入多模态能力的 AI 模型如 GPT-4o 将可能推动这一技术走向成熟，而不仅仅是停留在概念阶段。此外，文章提出，如果将“触觉”纳入现有的视觉和听觉 AI 能力中，这可能进一步推动具身智能的发展，这是当前 AI 领域的一个热门趋势。