超 1.2 万人参加 CVPR 2024，谷歌研究院获得最佳论文

AIGC动态2年前 (2024)更新 aitechtalk

2,799 0 0

文章摘要

【关键词】 CVPR 2024、图像生成、视觉基础模型、视觉与图形、学术交流

计算机视觉领域的顶级会议CVPR 2024在美国西雅图成功举行，会议规模和参与人数均创历史新高，现场参会人数超过一万两千人。本次会议共接收了11532篇提交论文，其中2719篇被接收，录用率为23.6%，较去年有所下降。

在CVPR 2024的颁奖环节中，共有24篇论文入围最佳论文决赛圈，数量较去年有所增加。论文的地理分布以美国、中国和德国为主，研究领域集中在视觉与图形、单视图3D重建以及图像与视频合成等。产业界和学术界均有突出表现，其中谷歌研究院、NAVER Cloud AI和NVIDIA等机构以及北京大学、上海交通大学等高校表现亮眼。

本次会议中，图像和视频合成与生成成为最火的研究主题，共有329篇论文，显示了该领域的热度和重要性。例如，谷歌DeepMind和研究院发布的Instruct-Imagen模型，能够处理异构图像生成任务并在未见任务上泛化。此外，扩散模型在图像生成领域的主导地位也得到了体现，相关研究如NVIDIA和Aalto University的《Analyzing and Improving the Training Dynamics of Diffusion Models》聚焦于改进扩散模型的训练动态。

视觉基础模型（VFM）的研究受到Transformer和语言大模型的启发，自2023年以来在计算机视觉领域内热情高涨。这些模型通过学习图像的通用表示，为多种视觉任务提供了强大的基础。

CVPR 2024不仅展示了计算机视觉领域的最新科研成果，也反映了学术界和产业界在推动科技进步方面的共同努力。会议的成功举办，为全球计算机视觉研究者和行业领袖提供了一个交流和合作的平台，进一步推动了该领域的科学进展和产业发展。