长序列处理 | 学习AIGC

算力终结者来了！华人天团「降维打击」注意力瓶颈，AI狂飙进对数时代

注意力机制的「平方枷锁」被突破，研究者提出对数线性注意力（Log-Linear Attention），通过Fenwick树分段和掩码矩阵实现对数级效率。这一创新由Mamba作者Tri...

AIGC动态

3个月前

微软AI和清华大学的研究人员联合提出了一种新型架构——差分Transformer（DIFF Transformer），旨在提升大型语言模型的性能。该架构通过改进模型处理上下文的方...

AIGC动态

10个月前

LG的AI研究机构推出了一款名为EXAONE 3.0的新型大模型，这是一款具有78亿参数的指令微调模型，经过8万亿token的高质量数据训练，支持韩语和英文两种语言，尤...

AIGC动态

1年前 (2024)

随着生成式AI产品如ChatGPT和Sora等的流行，Transformer架构已成为处理文本、图像、视频和音频等数据的大型语言模型（LLM）的基础。谷歌提出了一种名为Infini...

AIGC动态

1年前 (2024)