上下文长度越卷越离谱,我们真需要这么多token么?

AIGC动态9个月前发布 Si-Planet
910 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

上下文长度越卷越离谱,我们真需要这么多token么?
 

文章摘要


【关 键 词】 通义舞王上下文窗口LongRoPE旋转位置嵌入过拟合

摘要总结:

去年,通义舞王在科目三的火爆出圈中成为了顶流,引发了对通义千问的广泛关注。文章首先介绍了大模型中的一个关键概念——上下文窗口,它决定了模型能够同时处理的输入序列的最大长度。谷歌Gemini 1.5 Pro的上下文长度达到了100万个token,这使得它能够处理非常长的文本序列。然而,微软在2024年2月26号提出了一种名为LongRoPE的方法,将上下文窗口扩展到200万个token,这一技术通过改进位置插值方法和引入渐进式扩展策略实现,无需额外训练和硬件资源。

文章接着探讨了是否真的需要如此大的上下文窗口。虽然大上下文窗口可以处理更长的文本,但这同时也意味着更高的计算量和内存需求。过拟合问题也可能随之出现,因为模型可能会过度适应训练数据,导致在新数据上的泛化能力下降。此外,过大的上下文窗口还可能导致内存消耗增加。

最后,文章指出,尽管增加上下文窗口在技术上是可行的,但在实际应用中需要权衡其带来的性能提升与资源消耗。作者呼吁回归初心,关注模型性能的提升,而不是单纯追求数字上的增长。

原文信息


【原文链接】 阅读原文
【阅读预估】 1901 / 8分钟
【原文作者】 硅星人Pro
【作者简介】 硅(Si)是创造未来的基础,欢迎来到这个星球。

© 版权声明

相关文章

暂无评论

暂无评论...