谷歌开源Gemma Scope，更好解释大模型工作原理

AIGC动态1年前 (2024)发布 AIGCOPEN

2,295 0 0

文章摘要

【关键词】 多模态大模型、稀疏自编码器、Gemma Scope、JumpReLU、AIGC发展

随着多模态大模型的快速发展，其内部神经网络参数数量庞大，导致开发人员难以控制模型输出内容，容易出现“幻觉”现象。为了解决这一问题，稀疏自编码器（SAE）作为一种无监督学习方法，能够学习神经网络潜在表示的稀疏分解，将复杂特征分解为可解释的词、短语等，有效解释大模型的工作原理与机制。然而，普通SAE的质量难以保证，且训练成本高昂。

谷歌DeepMind针对其开源的Gemma 2模型，训练了一种特定的SAE——Gemma Scope。Gemma Scope通过强制学习过程中的稀疏性，使得模型内部表示中只有少数关键特征被激活，其余特征保持为零。这种稀疏性不仅降低了模型复杂度，还提高了可解释性，便于识别和理解模型决策背后的关键因素。

Gemma Scope的技术特点主要体现在以下几个方面：
1. 规模和全面性：研究人员在训练过程中使用了海量文本数据，每个SAE都在4-160亿个文本标记上进行训练，覆盖了Gemma 2模型的所有层和子层，学习了超过3000万个特征，训练了超过400个SAE。
2. 特殊激活函数：Gemma Scope在训练SAE时采用了一种名为JumpReLU的特殊激活函数，专为SAE设计，通过引入可学习的阈值促进稀疏性，同时保持特征学习的效率和质量。与传统的ReLU函数相比，JumpReLU引入了非线性跳跃阈值，增强了自编码器对关键稀疏特征的敏感度，使模型能够更精准地捕捉信息含量高的特征。

在训练Gemma Scope的过程中，研究人员使用了大量优质数据，确保SAE的有效性。例如，使用与Gemma预训练文本数据相同分布的文本进行训练。在参数设置上，精心调整了学习率、带宽、稀疏性系数等，以提升训练效果。在基础设施方面，使用了TPUv3、TPUv5p等加速器，并优化了数据管道，提高训练效率。

谷歌DeepMind希望通过开源Gemma Scope，帮助开发人员更好地利用和了解SAE技术，将其扩展到更多、更大的模型上，用于解释思维链等更复杂的功能。这将有助于解决大参数模型中的幻觉、越狱攻击等难题，推动AIGC领域的进一步发展。