标签:自注意力

图解Transformer多头注意力机制

本文是关于Transformer架构中多头注意力机制的深入解析。多头注意力是Transformer模型的核心组成部分,它使得模型能够从多个角度理解数据,提升了信息处理的...

基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了

华为诺亚方舟实验室的研究团队提出了一种新的训练方法,名为由弱到强式训练(weak-to-strong training),旨在解决个人研究者在开发顶级文生图(T2I)模型时...

聊聊我构建SMoE模型的过程

文章首先介绍了稀疏混合专家语言模型的背景和相关概念,以及与传统 Transformer 模型的共享元素。作者指出训练稳定性是这些模型面临的主要挑战,而小规模、可...