标签:长序列处理
微软和清华大学为 LLM 提出了 DIFF Transformer 架构
微软AI和清华大学的研究人员联合提出了一种新型架构——差分Transformer(DIFF Transformer),旨在提升大型语言模型的性能。该架构通过改进模型处理上下文的方...
LG开源韩语大模型Exaone 3.0,8万亿token训练数据
LG的AI研究机构推出了一款名为EXAONE 3.0的新型大模型,这是一款具有78亿参数的指令微调模型,经过8万亿token的高质量数据训练,支持韩语和英文两种语言,尤...
谷歌推出基于Transformer的创新技术——无限注意力
随着生成式AI产品如ChatGPT和Sora等的流行,Transformer架构已成为处理文本、图像、视频和音频等数据的大型语言模型(LLM)的基础。谷歌提出了一种名为Infini...