谷歌开源Gemma Scope,更好解释大模型工作原理

AIGC动态5个月前发布 AIGCOPEN
863 0 0
谷歌开源Gemma Scope,更好解释大模型工作原理

 

文章摘要


【关 键 词】 多模态大模型稀疏自编码器Gemma ScopeJumpReLUAIGC发展

随着多模态大模型的快速发展,其内部神经网络参数数量庞大,导致开发人员难以控制模型输出内容,容易出现“幻觉”现象。为了解决这一问题,稀疏自编码器(SAE)作为一种无监督学习方法,能够学习神经网络潜在表示的稀疏分解,将复杂特征分解为可解释的词、短语等,有效解释大模型的工作原理与机制。然而,普通SAE的质量难以保证,且训练成本高昂。

谷歌DeepMind针对其开源的Gemma 2模型,训练了一种特定的SAE——Gemma Scope。Gemma Scope通过强制学习过程中的稀疏性,使得模型内部表示中只有少数关键特征被激活,其余特征保持为零。这种稀疏性不仅降低了模型复杂度,还提高了可解释性,便于识别和理解模型决策背后的关键因素。

Gemma Scope的技术特点主要体现在以下几个方面:
1. 规模和全面性:研究人员在训练过程中使用了海量文本数据,每个SAE都在4-160亿个文本标记上进行训练,覆盖了Gemma 2模型的所有层和子层,学习了超过3000万个特征,训练了超过400个SAE。
2. 特殊激活函数:Gemma Scope在训练SAE时采用了一种名为JumpReLU的特殊激活函数,专为SAE设计,通过引入可学习的阈值促进稀疏性,同时保持特征学习的效率和质量。与传统的ReLU函数相比,JumpReLU引入了非线性跳跃阈值,增强了自编码器对关键稀疏特征的敏感度,使模型能够更精准地捕捉信息含量高的特征。

在训练Gemma Scope的过程中,研究人员使用了大量优质数据,确保SAE的有效性。例如,使用与Gemma预训练文本数据相同分布的文本进行训练。在参数设置上,精心调整了学习率、带宽、稀疏性系数等,以提升训练效果。在基础设施方面,使用了TPUv3、TPUv5p等加速器,并优化了数据管道,提高训练效率。

谷歌DeepMind希望通过开源Gemma Scope,帮助开发人员更好地利用和了解SAE技术,将其扩展到更多、更大的模型上,用于解释思维链等更复杂的功能。这将有助于解决大参数模型中的幻觉、越狱攻击等难题,推动AIGC领域的进一步发展。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1195字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...