标签:长序列处理

微软和清华大学为 LLM 提出了 DIFF Transformer 架构

微软AI和清华大学的研究人员联合提出了一种新型架构——差分Transformer(DIFF Transformer),旨在提升大型语言模型的性能。该架构通过改进模型处理上下文的方...

LG开源韩语大模型Exaone 3.0,8万亿token训练数据

LG的AI研究机构推出了一款名为EXAONE 3.0的新型大模型,这是一款具有78亿参数的指令微调模型,经过8万亿token的高质量数据训练,支持韩语和英文两种语言,尤...

谷歌推出基于Transformer的创新技术——无限注意力

随着生成式AI产品如ChatGPT和Sora等的流行,Transformer架构已成为处理文本、图像、视频和音频等数据的大型语言模型(LLM)的基础。谷歌提出了一种名为Infini...