谢赛宁新作：表征学习有多重要？一个操作刷新SOTA，DiT训练速度暴涨18倍

1,690 0 0

文章摘要

纽约大学谢赛宁团队的最新研究强调了在视觉领域生成模型中表征学习的重要性。该团队通过引入一种新的正则化方法REPA（REPresentation Alignment），显著提升了扩散模型的训练效率和生成质量。REPA的核心思想是将扩散模型中的表征与外部更强大的视觉表征进行对齐，从而提高模型性能。

研究发现，即使目标是生成像素，包含特征预测损失也是有益的，以便解码器的内部表示可以基于预训练的视觉编码器进行特征预测。通过在损失函数中添加相似度最大化项，REPA能将SiT/DiT的训练速度提升近18倍，并在ImageNet 256×256上实现了最先进的FID=1.42。

论文还从统一的随机插值视角回顾了基于流的模型SiT和基于去噪的扩散模型DiT，并提出了REPA方法来缩小扩散模型和自监督学习方法之间的表征差距。实验结果表明，REPA在提升视觉缩放、模型规模和表征质量方面具有可扩展性，并且能显著提高训练效率和生成质量。

该研究的第一作者Sihyun Yu是KAIST人工智能专业的博士生，他的研究集中在减少大型生成模型训练的内存和计算负担，特别是在大规模视频生成方面。这项研究得到了纽约大学AI领域的另一位著名学者Yann LeCun的关注和转发，进一步证明了其在学术界的影响力。

原文和模型

【原文链接】 阅读原文 [ 2703字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # 视频生成 # REPA方法 # 扩散模型 # 表征学习 # 视觉表征 # 训练效率

文章版权归作者所有，未经允许请勿转载。

解读OpenAI Sora文生视频技术原理

admin

1,916

一文看尽297篇文献！中科院领衔发表首篇「基于扩散模型的图像编辑」综述

新智元

2,001

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

机器之心

700

用扩散模型生成网络参数，LeCun点赞尤洋团队新研究

机器之心

1,598

新智元

1,618

InstantID彻底火了！来自中国的开源项目，图灵奖得主Yann LeCun点赞（附论文及源码）

admin

2,599

暂无评论

暂无评论...

谢赛宁新作：表征学习有多重要？一个操作刷新SOTA，DiT训练速度暴涨18倍

文章摘要

原文和模型

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

用大模型控制鼠标、键盘！OpenAI最想做的事，让Anthropic抢先了

相关文章

暂无评论

热门网址

热门文章

谢赛宁新作：表征学习有多重要？一个操作刷新SOTA，DiT训练速度暴涨18倍

文章摘要

原文和模型

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

用大模型控制鼠标、键盘！OpenAI最想做的事，让Anthropic抢先了

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章