标签：稀疏注意力

月之暗面Kimi的技术一点都不落后。

月之暗面团队于2023年5月启动MoBA框架研发，旨在提升大语言模型处理长文本的效率与兼容性。该框架结合稀疏注意力与分布式训练技术，支持上下文长度扩展至10M...

AIGC动态

6个月前

阿里发布Qwen2.5-Turbo，支持100万Tokens上下文！

阿里巴巴推出了Qwen2.5-Turbo版本，该版本将上下文扩展至100万tokens，大幅提升了模型的理解与生成能力。这一扩展使得Qwen2.5-Turbo能够处理10部长篇小说、15...

AIGC动态

9个月前

阿里发布Qwen2.5-Turbo，上下文长度突破100万

阿里巴巴通义大模型团队近日发布了Qwen2.5-Turbo，这是其最新语言模型Qwen2.5的升级版。新模型在多个方面进行了显著提升，尤其是在处理超长上下文的能力上，...

AIGC动态

9个月前