陈丹琦团队新作:Llama-2上下文扩展至128k,10倍吞吐量仅需1/6内存

AIGC动态9个月前发布 QbitAI
806 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

陈丹琦团队新作:Llama-2上下文扩展至128k,10倍吞吐量仅需1/6内存
 

文章摘要


【关 键 词】 上下文窗口扩展CEPE长上下文内存优化训练成本

陈丹琦团队发布了一种名为CEPE(并行编码上下文扩展)的新方法,该方法通过添加小型编码器和交叉注意力模块,扩展了预训练和指令微调模型的上下文窗口。

这种方法在保持低内存使用率的同时,显著提高了模型的吞吐量,并降低了训练成本

CEPE在多个任务上表现出色,包括降低困惑度、增强检索能力和提升开放域问答能力。

此外,团队还提出了CEPE-Distilled(CEPED),一种专门用于指令调优模型的变体,它使用未标记数据扩展上下文窗口,同时保留指令理解能力。

论文和代码已在HuggingFace和GitHub上发布。

原文信息


【原文链接】 阅读原文
【阅读预估】 1429 / 6分钟
【原文作者】 量子位
【作者简介】 追踪人工智能新趋势,关注科技行业新突破

© 版权声明

相关文章

暂无评论

暂无评论...