陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存

AIGC动态1年前 (2024)发布 QbitAI

2,009 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

文章摘要

【关键词】 上下文窗口扩展、CEPE、长上下文、内存优化、训练成本

陈丹琦团队发布了一种名为CEPE（并行编码上下文扩展）的新方法，该方法通过添加小型编码器和交叉注意力模块，扩展了预训练和指令微调模型的上下文窗口。

这种方法在保持低内存使用率的同时，显著提高了模型的吞吐量，并降低了训练成本。

CEPE在多个任务上表现出色，包括降低困惑度、增强检索能力和提升开放域问答能力。

此外，团队还提出了CEPE-Distilled（CEPED），一种专门用于指令调优模型的变体，它使用未标记数据扩展上下文窗口，同时保留指令理解能力。

论文和代码已在HuggingFace和GitHub上发布。

原文信息

【原文链接】 阅读原文
【阅读预估】 1429 / 6分钟
【原文作者】 量子位
【作者简介】 追踪人工智能新趋势，关注科技行业新突破

# AIGC动态 # 大模型 # CEPE # moonshot-v1-32k # 上下文窗口扩展 # 内存优化 # 月之暗面 # 训练成本 # 量子位 # 长上下文

文章版权归作者所有，未经允许请勿转载。

OpenAI宫斗调查结果公布：Altman重回董事会并引入三名新成员，Ilya去留待定

Founder Park

2,436

最强3B「小钢炮」，代码数据全公开！推理随意开关，128k超长上下文

新智元

339

关于 RAG、AI Agent、多模态，我们的理解与探索

AI前线

3,004

谷歌通用AI智能体发布，3D游戏玩法要变天了

量子位

2,224

⏰ 最后10天！AIGC评选报名即将截止，我们正在寻找值得关注的企业与产品——

量子位

1,862

AIGC还是二刺猿会玩：捏娃社区爆火，有脑洞就能当同人大佬

量子位

2,635

暂无评论

暂无评论...

陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存

模型信息

文章摘要

原文信息

微软6页论文爆火：三进制LLM，真香！

阿里云疯狂星期四！史上最大力度降价来了：100+云产品官网直降20%

相关文章

暂无评论

热门网址

热门文章

陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存

模型信息

文章摘要

原文信息

微软6页论文爆火：三进制LLM，真香！

阿里云疯狂星期四！史上最大力度降价来了：100+云产品官网直降20%

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章