标签:频域自注意力

华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍

机器之心专栏近期介绍了一种基于频域的大语言模型架构——帝江,这一架构旨在解决现有大型Transformer模型在推理成本和训练成本上的问题。帝江模型通过频域自注...