Meta开源多token预测，提升大模型推理效率

AIGC动态1年前 (2024)发布 AIGCOPEN

2,211 0 0

文章摘要

【关键词】 AIGC社区、多token预测、Transformer、推理效率、技术创新

AIGC开放社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，专注于AIGC领域的市场研究和开发者生态。

传统的大模型预训练方法使用下一个token预测的损失函数，虽然强大但存在局限性。

为此，研究人员提出了“多token预测”训练方法，要求模型在每个位置上同时预测接下来的n个Token，以提高推理效率而不增加预训练时间。

在推理阶段，使用单个下一Token预测的输出头进行自回归生成，其他输出头则用于加速推理效率。

多Token预测作为辅助训练任务，能提高模型在代码和自然语言文本方面的任务性能。

为解决可能导致GPU内存使用量增加的问题，研究人员开发了一种前向和后向传播顺序，通过减少内存中同时存储的梯度数量，降低内存使用量，提高训练效率。

研究人员在不同参数规模的模型上评估了该技术，结果显示130亿参数模型在HumanEval和MBPP上解决问题能力分别提高了12%和17%。

多token预测在推理效率上表现出色，尤其是大规模批处理，经过4 token训练的模型在推理时速度可提升3倍。

这一创新训练方法有望为大模型的发展和应用带来新的突破。

原文和模型

【原文链接】 阅读原文 [ 933字 | 4分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # AIGC社区 # Transformer # 多token预测 # 技术创新 # 推理效率

文章版权归作者所有，未经允许请勿转载。

硅谷活动｜与OpenAI孵化公司、小红书爆红产品的创业者们，聊聊AI Agent的真实现状

硅星人Pro

1,566

日观芯设亮相 ICCAD-Expo 2024，展现国产EDA硬核实力

admin

1,971

AI有了联想，世界将会怎样？

量子位

2,190

纯血鸿蒙，再造一个鸿蒙时代

硅星人Pro

1,601

MEMS振荡器的国产破局者

admin

896

中国新能源车 20 年：骗子、生死和「遥遥领先」

极客公园

2,275

暂无评论

暂无评论...

Meta开源多token预测，提升大模型推理效率

文章摘要

原文和模型

苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务

达摩院发布一站式AI视频创作平台"寻光"，打造全新AI工作流

相关文章

暂无评论

热门网址

热门文章

Meta开源多token预测，提升大模型推理效率

文章摘要

原文和模型

苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务

达摩院发布一站式AI视频创作平台"寻光"，打造全新AI工作流

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章