作者信息
【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
【微 信 号】 AIGCOPEN
文章摘要
【关 键 词】 微软研究、LongRoPE框架、大语言模型、位置嵌入、渐进式扩展
文章主要介绍了微软研究推出的LongRoPE框架,该框架成功地将大语言模型的上下文扩展至200万,超过了谷歌Gemini 1.5的100万token上限。LongRoPE通过利用位置嵌入中的两种非均匀性和渐进式扩展策略等技术突破了大模型上下文窗口的技术瓶颈。
文章还详细介绍了LongRoPE的两个核心模块:多维非均匀位置插值搜索和渐进式扩展训练。其中,多维非均匀位置插值搜索模块通过进化搜索算法识别每个RoPE维度的最佳缩放因子,以最大限度地保留原始RoPE中的关键维度信息,减小位置插值带来的信息损失。渐进式扩展训练则采用一种高效的渐进式训练策略,将上下文扩展至200万,而无需直接在极长文本上进行精调。
此外,文章还提到了LongRoPE针对短文本性能下降的问题,使用同样的搜索算法对已经扩展的模型调整RoPE缩放因子,专门针对更短的上下文长度进行优化。实验结果显示,通过LongRoPE扩展的LLaMA 2、Mistral开源模型的上下文在4000——200万范围内具有较低的困惑度,实现了超过90%的密钥检索准确率。
原文信息
【原文链接】 阅读原文
【原文字数】 1196
【阅读时长】 4分钟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...