标签:梯度消失
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%
字节跳动豆包大模型团队最近提出了一种名为超连接(Hyper-Connections)的新方法,旨在替代传统的残差连接,以解决梯度消失和表示崩溃之间的权衡问题。超连接...
几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型:从质疑Scaling到成为Scaling
本文探讨了在扩散模型中UNet结构的long skip connection上应用scaling操作对模型训练稳定性的影响。研究发现,适当的scaling系数可以缓解特征不稳定现象,提...