何恺明CVPR最新讲座PPT上线:走向端到端生成建模

何恺明CVPR最新讲座PPT上线:走向端到端生成建模

 

文章摘要


【关 键 词】 CVPR生成模型扩散模型端到端流匹配

今年的CVPR会议在美国田纳西州纳什维尔顺利闭幕,吸引了众多学术界人士参与。MIT副教授何恺明成为焦点,他的讲座全场爆满,并参与了多个重要活动,包括最佳论文奖委员会成员和视觉生成建模研讨会的演讲嘉宾。研讨会聚焦于扩散模型之后的视觉生成建模演进方向,探讨了扩散模型的局限性和未来发展方向。

扩散模型近年来迅速成为视觉生成建模的主导方法,广泛应用于图像、视频、3D物体等的生成。然而,这些模型在生成速度、人类干预和复杂分布模拟方面存在显著局限性。何恺明在研讨会上分享了题为「走向端到端生成建模」的主题演讲,探讨了生成模型的演进方向。他回顾了识别模型的演进,指出生成模型在概念上更类似于逐层训练,如Diffusion模型和自回归模型,都需要多步推理过程。

识别与生成可以被视为同一枚硬币的两面,识别是抽象过程,而生成是具体化过程。识别任务通常有确定的数据到标签的映射,而生成任务则希望从简单的噪声分布映射到复杂多变的数据分布。如何有效构造这个映射是生成模型面临的核心挑战。连续归一化流(Continuous Normalizing Flow)和流匹配(Flow Matching)技术为解决这一问题提供了有希望的方向。

何恺明介绍了流匹配方向的几篇代表性论文,并总结了几个关键点:识别与生成都可以被视为数据分布之间的一种「流」;Flow Matching为训练生成模型提供了强大的方法,能够构建出隐式存在的ground-truth场;尽管希望实现精确的积分来生成,但在实践中通常采用有限求和的近似;终极目标是实现前馈式的、端到端的生成建模,摆脱多步迭代的依赖。

何恺明还介绍了他们近期提出的新方法「Mean Flows for One-step Generative Modeling」,追求一步到位的生成。该方法引入了一个新的ground-truth场来表示平均速度,而不是流匹配中常用的瞬时速度。论文推导出平均速度与瞬时速度之间的内在关系,作为指导网络训练的原则性基础。基于这一概念,论文训练了一个神经网络来直接建模平均速度场,并引入损失函数来奖励网络满足平均速度和瞬时速度之间的内在关系。

实验结果显示,MeanFlow的表现远超同类,实现了3.43的FID,与IMM的单步结果7.77相比,相对提升了50%以上。如果仅比较1-NFE生成,MeanFlow与之前的最佳方法(10.60)相比,相对提升了近70%。该方法在很大程度上缩小了单步和多步扩散/流模型之间的差距。

何恺明致敬了整个社区在实现高效、端到端生成方面所做的共同努力,列举了几个主要研究方向,包括Consistency Models、Two-time-variable Models和Revisiting Normalizing Flows。最后,他对整个方向进行了展望,提出了几个开放性的研究问题,如是否还在生成模型的「AlexNet前时代」,以及什么是真正适用于端到端生成建模的良好公式。

何恺明的演讲和研究成果为视觉生成建模领域提供了新的思路和方向,推动了该领域的发展。

原文和模型


【原文链接】 阅读原文 [ 1923字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...