标签:稀疏注意力

阿里发布Qwen2.5-Turbo,上下文长度突破100万

阿里巴巴通义大模型团队近日发布了Qwen2.5-Turbo,这是其最新语言模型Qwen2.5的升级版。新模型在多个方面进行了显著提升,尤其是在处理超长上下文的能力上,...