Meta开源多token预测,提升大模型推理效率

AIGC动态3个月前发布 AIGCOPEN
563 0 0
Meta开源多token预测,提升大模型推理效率

 

文章摘要


【关 键 词】 AIGC社区多token预测Transformer推理效率技术创新

AIGC开放社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,专注于AIGC领域的市场研究和开发者生态。

传统的大模型预训练方法使用下一个token预测的损失函数,虽然强大但存在局限性。

为此,研究人员提出了“多token预测”训练方法,要求模型在每个位置上同时预测接下来的n个Token,以提高推理效率而不增加预训练时间。

在推理阶段,使用单个下一Token预测的输出头进行自回归生成,其他输出头则用于加速推理效率。

多Token预测作为辅助训练任务,能提高模型在代码和自然语言文本方面的任务性能。

为解决可能导致GPU内存使用量增加的问题,研究人员开发了一种前向和后向传播顺序,通过减少内存中同时存储的梯度数量,降低内存使用量,提高训练效率。

研究人员在不同参数规模的模型上评估了该技术,结果显示130亿参数模型在HumanEval和MBPP上解决问题能力分别提高了12%和17%。

多token预测在推理效率上表现出色,尤其是大规模批处理,经过4 token训练的模型在推理时速度可提升3倍。

这一创新训练方法有望为大模型的发展和应用带来新的突破。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 933字 | 4分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...