OpenAI开源GPT-4 SAE，提供1600万个解释模式

AIGC动态1年前 (2024)发布 AIGCOPEN

2,263 0 0

文章摘要

在人工智能领域，大模型如GPT-4的功能日益强大，能够生成文本、图片、视频和音频等多种内容，但其生成过程往往难以精确控制，可能导致歧视性、错误或幻觉等不可控输出。近期，OpenAI在官网开源了GPT-4的稀疏自动编码器（SAE），这是一种在训练过程中加入稀疏性约束的技术，旨在帮助模型学习到更有意义、更具解释性的特征表示，以提高输出的准确性和安全性。

研究指出，单个特征的行为比神经元行为更容易解释和掌控。OpenAI的SAE通过无监督学习，旨在获得输入数据的有效且稀疏的低维表示，添加的稀疏性约束使得只有少数神经元在隐藏层中被激活。此外，OpenAI还采用了一种称为N2G的方法，该方法通过识别能够激活特定潜在单元的序列特征，为每个潜在单元构建图表示，揭示了潜在单元激活的条件，从而提供了对模型行为的直观理解。

N2G方法的核心优势在于其对算力的低需求，与模拟整个模型行为的传统方法相比，N2G仅需分析潜在单元的激活模式。OpenAI通过SAE在GPT-4模型中已识别出1600万个可解释的模式和特征，但距离完整捕捉大模型行为，还需要更多的特征。

此外，文章提到神经网络设计的目标通常是对整体性能进行优化，而非控制每个具体输出，导致模型的输出通常基于概率分布采样，带有一定的不确定性。训练数据中的噪声、偏差或不准确的标准也可能导致模型输出出现问题。

OpenAI的开源举措不仅提供了论文和代码，还通过在线demo让开发者深入理解神经网络生成内容的流程，这有利于更精准、安全地控制大模型的输出。开源地址、论文地址和在线demo的提供，促进了全球开发者的交流与合作，推动了大模型技术的发展。