上下文长度越卷越离谱，我们真需要这么多token么？

AIGC动态2年前 (2024)发布 Si-Planet

2,217 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

【关键词】 通义舞王、上下文窗口、LongRoPE、旋转位置嵌入、过拟合

摘要总结：

去年，通义舞王在科目三的火爆出圈中成为了顶流，引发了对通义千问的广泛关注。文章首先介绍了大模型中的一个关键概念——上下文窗口，它决定了模型能够同时处理的输入序列的最大长度。谷歌Gemini 1.5 Pro的上下文长度达到了100万个token，这使得它能够处理非常长的文本序列。然而，微软在2024年2月26号提出了一种名为LongRoPE的方法，将上下文窗口扩展到200万个token，这一技术通过改进位置插值方法和引入渐进式扩展策略实现，无需额外训练和硬件资源。

文章接着探讨了是否真的需要如此大的上下文窗口。虽然大上下文窗口可以处理更长的文本，但这同时也意味着更高的计算量和内存需求。过拟合问题也可能随之出现，因为模型可能会过度适应训练数据，导致在新数据上的泛化能力下降。此外，过大的上下文窗口还可能导致内存消耗增加。

最后，文章指出，尽管增加上下文窗口在技术上是可行的，但在实际应用中需要权衡其带来的性能提升与资源消耗。作者呼吁回归初心，关注模型性能的提升，而不是单纯追求数字上的增长。