Meta开源创新大模型架构AU-Nets

853 0 0

文章摘要

在大模型领域，文本数据的分解和处理一直是研究的核心问题。传统的分词方法，如Byte Pair Encoding，通常将文本分割成固定粒度的单元，并构建静态词汇表供模型使用。然而，这种方法存在显著局限性，尤其是在处理低资源语言或特殊字符结构时，模型的泛化能力和应用范围受到限制。为了解决这些问题，Meta的研究人员开源了创新架构AU-Net，该架构通过引入自回归的U-Net结构，彻底改变了传统语言模型的分词和处理模式。AU-Net能够直接从原始字节开始学习，动态地将字节组合成单词、词对，甚至多达四个单词的组合，形成多尺度的序列表示。

AU-Net的架构灵感来源于医学图像分割领域的U-Net，具有独特的收缩路径和扩张路径。收缩路径的主要作用是对输入的字节序列进行压缩处理，通过逐步合并字节来形成更高层次的语义单元，从而提取出文本的宏观语义信息。而扩张路径则负责将这些压缩后的高层次信息逐步还原，恢复到原始的序列长度，并将高层次的语义信息融入到更细致的局部细节中。这种设计使得模型在不同层次上都能够捕捉到文本的重要特征，从而提高了模型的生成能力和预测准确性。

在收缩路径中，模型分为多个阶段，每个阶段都有其特定的功能和结构。第一阶段直接处理原始字节，维度设置为512，包含3层。由于字节级别的序列是最长的，模型在这个阶段会限制注意力机制的作用范围，使其仅在一定的窗口内进行操作，以避免计算负担过重的问题。第二阶段在单词边界处进行池化操作，通过选择特定位置的向量来捕捉单词之前的上下文信息，并将这些向量投影到2048维度，包含3层。第三阶段则是在每两个单词处进行池化操作，维度进一步增加到3072，包含18层。这种设计使得模型能够捕捉到单词之间的搭配关系和更复杂的语义结构，从而更好地理解文本的含义。

扩张路径的作用是将收缩路径中压缩后的高层次信息逐步还原，并将高层次的语义信息与局部细节信息进行融合。在扩张路径中，模型采用多线性上采样的策略来进行上采样操作，将每个粗向量复制多次，以匹配下一个阶段的长度，并为这些复制的向量应用不同的位置特定线性变换。这种策略使得每个位置的向量都能够根据其在序列中的相对位置进行调整，从而更好地融合高层次的信息和局部细节。此外，模型还利用跳跃连接来传递信息，将收缩路径中提取到的细节信息直接传递到扩张路径中的相应阶段，从而保证在还原过程中不会丢失重要的局部细节。

在推理阶段，AU-Net采用自回归的生成机制。字节级别的阶段会在每一步都保持活跃，而更深层次的阶段则根据池化模式以较低的频率激活。这种自回归的生成方式不仅保证了生成文本的连贯性和准确性，还提高了推理效率。通过这种方式，模型能够生成更加自然和准确的文本，避免了可能出现的语义不连贯或者语法错误等问题。同时，由于更深层次的阶段不是在每一步都激活，这大大减少了计算量，提高了推理的速度，使得AU-Net在实际应用中更加高效和实用。