标签:跨层注意力

麻省理工提出“跨层注意力”,极大优化Transformer缓存

在人工智能生成内容(AIGC)领域,Transformer架构因其在大语言模型(LLM)中的关键作用而备受关注。然而,随着模型参数的指数级增长,传统的Transformer架构...