1.2万人朝圣CVPR，华人学者夺最佳论文！Sora舵手火爆演讲成大型追星现场

AIGC动态1年前 (2024)发布 AIera

2,119 0 0

文章摘要

2024年的CVPR会议在美国西雅图成功举行，成为历史上规模最大、参与人数最多的一届。会议吸引了超过1.2万人参加，共提交了11532篇论文，比去年增加了2000多篇，最终的录用率为23.58%。图像视频的合成与生成、多视角和传感器的3D、人体相关研究成为今年CVPR接收论文数量最多的领域。

Sora模型因其在视频生成方面的突破而备受关注，其研究团队负责人Tim Brooks在研讨会上分享了Sora模型的训练技巧和未来视频生成模型的新功能。 Brooks强调了Transformer架构的可扩展性，并提倡在训练模型时优先考虑让数据适应任务，而非过度调整模型架构以适应特定任务。

在CVPR的开幕演讲中，宣布了2024年的最佳论文、最佳学生论文等奖项。最佳论文包括《Generative Image Dynamics》和《Rich Human Feedback for Text-to-Image Generation》，分别由谷歌研究院和多个学术机构合作完成。前者提出了一种从单张静态图片中建模自然振荡动态效果的新方法，后者则提出了首个详尽的用于图像生成的人类反馈数据集。

荣誉提名包括北京大学和上海交通大学合作的《EventPS: Real-Time Photometric Stereo Using an Event Camera》以及麻省理工学院等机构合作的《pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction》。

最佳学生论文由上海科技大学的学生Zehao Yu、Anpei Chen和Binbin Huang合作完成的《Mip-Splatting: Alias-free 3D Gaussian Splatting》，该论文提出了一种改进3D高斯泼溅的全新方法，用于在任何尺度上进行无锯齿渲染。另一篇最佳学生论文是《BioCLIP: A Vision Foundation Model for the Tree of Life》，由俄亥俄州立大学等机构合作完成，旨在构建一个视觉基础模型，为生命之树提供支持。

这些获奖论文和研究成果不仅展示了计算机视觉领域的最新进展，也预示着未来技术发展的方向，特别是在图像和视频生成、3D重建以及人工智能等领域。