用扩散模型生成神经网络？NUS 尤洋团队：这不是开玩笑

AIGC动态2年前 (2024)发布 aitechtalk

2,068 0 0

作者信息

【原文作者】 AI科技评论
【作者简介】 雷峰网旗下AI新媒体。聚焦AI前沿研究，关注AI工程落地。
【微信号】 aitechtalk

文章摘要

摘要：
新加坡国立大学尤洋团队、加州大学伯克利分校和Meta AI Research共同发布了一项名为“Neural Network Diffusion”的研究，该研究利用扩散模型生成神经网络参数配置。这一创新方法被称为“参数扩散”（p-diff），通过训练潜在扩散模型（LDM）从随机噪声合成有效的神经网络参数。研究显示，p-diff方法在多数据集和架构中能够达到或增强性能，并且生成的模型与训练模型有显著差异，表明其能够合成新参数。实验在MNIST、CIFAR-10/100、ImageNet-1K、STL-10等数据集上进行，涉及ResNet-18/50、ViT-Tiny/Base和onvNeXt-T/B等架构。结果表明，p-diff方法能够有效学习高性能参数分布，并生成优异的模型。此外，研究团队还探讨了p-diff与Sora等其他研究的区别，并展望了扩散模型未来的发展方向。

详细总结：

1. 扩散模型的新应用：
扩散模型在视觉内容生成领域已取得显著成就，如OpenAI的牛油果椅子、英伟达的Magic3D和斯坦福大学的Folding Diffusion。然而，这些成就仅是冰山一角。最新的研究“Neural Network Diffusion”将扩散模型的应用推向了新的高度，直接生成神经网络参数，这标志着扩散模型开始在机器学习的底层进行革新。

2. 参数扩散（p-diff）方法：
研究团队提出了一种名为“参数扩散”（p-diff）的新颖方法，它结合了自动编码器框架和标准潜在扩散模型（LDM）。通过训练LDM，研究者能够从随机噪声中合成有效的神经网络参数。这种方法不仅在性能上与训练数据相似，甚至在多数据集和架构中还能增强性能。更重要的是，生成的模型与训练模型有显著差异，说明p-diff能够合成新参数，而非仅记忆训练样本。

3. 实验验证：
为了验证p-diff方法的有效性，研究团队在多个广泛使用的数据集上进行了评估实验。实验结果显示，p-diff在大多数情况下取得了与基线相似或更好的结果，证明了其在不同数据集上的通用性和有效性。此外，通过对比实验，研究团队证实了p-diff能够生成与原始模型表现不同的新参数。

4. 结语与展望：
“Neural Network Diffusion”的研究不仅为扩散模型的应用领域带来了新的突破，也为大模型技术的发展提供了新的可能性。尽管目前还存在内存限制、结构设计效率和性能稳定性等挑战，但这一创新尝试无疑为扩散模型的未来发展方向提供了新的思路。AI科技评论将继续关注扩散模型的研究动态，期待其在AI领域的进一步发展。