Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

AIGC动态1年前 (2024)发布 almosthuman2014

2,355 0 0

文章摘要

【关键词】 计算机视觉、ViT与CNN、行业争论、效率与实时性、混合架构

在当前的计算机视觉领域，Vision Transformer（ViT）与传统的卷积神经网络（CNN）之争正日益激烈。近期，图灵奖得主、Meta首席科学家Yann LeCun对这场争论发表了自己的见解。他指出，ViT在处理高分辨率图像和视频任务时效率较低，不适合实时处理。相反，他认为结合低级别卷积层与高级别自注意力循环的混合架构更为理想。这一观点得到了其他研究者的响应和支持。

Comma.ai的CTO Harald Schäfer展示了其最新的研究成果，将压缩器改为纯ViT架构，去除了卷积，并称其效果不错。这引起了AI圈的讨论，有观点认为即便是如LeCun这样的行业大师，有时也可能难以跟上创新的步伐。

然而，LeCun强调并非认为ViT不实用，而是指出其在效率和实时处理能力上的不足。他提到，纽约大学助理教授谢赛宁的研究ConvNext表明，只要方法得当，CNN也能达到与ViT相似的效果。谢赛宁也提出，对于极高分辨率的图像，卷积或共享权重的ViT修补可能是更合适的选择。

LeCun进一步阐述了他对理想架构的看法：在低级别图像处理中使用带有步幅或池化的卷积，而在高级别特征表征对象后使用自注意力循环。他甚至打赌，特斯拉的全自动驾驶（FSD）也会采用类似的策略，即在低级别使用卷积，高级别结合全局循环。

此外，谷歌DeepMind的研究者Lucas Beyer也对“卷积ViT”表示了期待。他认为，得益于卷积网络的零填充，这种结构有可能表现出色。

这一争论显示了在AI领域，特别是在计算机视觉方向，对架构选择和性能评估的不断探索。尽管ViT提供了新的视角，但CNN仍然是一个强有力的竞争者，特别是在实时和效率要求较高的应用场景中。未来，哪种架构能更胜一筹，或是出现全新的架构，还有待观察。同时，机器之心发起了“人工智能+”标杆示范的征集活动，以表彰在全球范围内具有市场竞争力和技术实力的AI机构、产品和案例。