谷歌、Anthropic推出创新神经压缩Equal-Info Windows

AIGC动态6个月前发布 AIGCOPEN
1,065 0 0
谷歌、Anthropic推出创新神经压缩Equal-Info Windows

 

文章摘要


【关 键 词】 神经压缩大语言模型文本分割窗口压缩信息相等

谷歌DeepMind和Anthropic的研究人员共同开发了一种名为Equal-Info Windows的创新神经压缩方法,旨在解决大语言模型(LLM)训练成本高昂的问题。随着LLM如ChatGPT和Gemini等参数和功能的复杂化,训练成本呈指数级增长。通过使用神经压缩的文本数据来训练模型,可以在训练和推理效率上实现显著提升,同时便于处理超长文本。

然而,直接使用神经压缩数据可能导致生成不透明和不稳定的内容输出。例如,简单的算术编码文本压缩无法使LLM学习到有效的训练知识。Equal-Info Windows通过将文本分割成多个窗口,并将每个窗口压缩到固定长度的比特流,实现了信息量的大致相等。这种方法提供了稳定的映射关系,使压缩后的文本数据更易于被LLM学习。

Equal-Info Windows首先通过“窗口分割”将原始文本数据分割成连续字符序列,每个序列作为一个独立窗口。窗口大小可根据需求调整,通常为固定长度,便于后续压缩。这种分割有助于减少LLM在处理长文本时的计算负担,使模型专注于局部上下文,提高处理速度和效率。

接下来,通过“窗口压缩”将每个分割后的窗口独立压缩到固定长度的比特串,保持原始文本信息的同时减少存储空间和AI算力资源需求。文本窗口首先转换为数值序列,然后通过算术编码进行压缩,优化压缩过程以实现高效比特级压缩。

研究人员训练了两个模型M1和M2。M1负责将原始文本数据转换为压缩后的比特流,是实现神经网络压缩的关键环节。M2模型学习从压缩的比特流中恢复和理解原始文本信息,包括处理和解码M1生成的压缩数据。在推理阶段,M2模型能基于压缩输入生成未压缩的文本输出,实现压缩文本的理解和逆向压缩过程。

为了评估Equal-Info Windows的性能,研究人员将其压缩的文本与传统子词分割器(如SentencePiece)处理的文本进行了对比。尽管在模型参数数量相同的情况下,Equal-Info Windows的困惑度略高于子词分割器,但在减少序列长度方面具有明显优势。这表明Equal-Info Windows能在较少的自回归步骤中生成文本,降低模型推理时的延迟。

此外,研究团队发现Equal-Info Windows在处理长文本时表现出色。由于每个压缩窗口包含大致相等的信息量,LLM能更好地捕捉文本中的长距离依赖关系,这对于文档检索和编码等任务尤为重要。这项研究为大语言模型的训练和应用提供了一种新的高效方法,有助于推动AIGC领域的发展。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1285字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...