OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱

AIGC动态1年前 (2024)发布 AIera

2,079 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

【关键词】 OpenAI、Transformer调试器、人工通用智能、自动可解释性、稀疏自动编码器

新智元报道，OpenAI超级对齐团队负责人宣布开源Transformer调试器（TDB），这将使研究人员能够在不编写代码的情况下快速探索大型语言模型（LLM）的内部结构。这一进展有望为实现人工通用智能（AGI）提供助力。

去年5月，OpenAI发布了一个重要发现，即GPT-4能够解释GPT-2的30万神经元。这一成果引起了广泛关注。现在，OpenAI推出的Transformer调试器结合了稀疏自动编码器和自动可解释性技术，使研究人员能够更容易地分析Transformer的内部结构。项目地址为：https://github.com/openai/transformer-debugger。

Transformer调试器的工作原理基于OpenAI在2023年5月发布的对齐研究。该工具通过使用GPT-4分析GPT-2的行为，解释其运行机制。TDB工具将大模型解释小模型的过程零代码化，降低了研究人员上手的门槛。在GitHub项目主页上，OpenAI团队成员通过视频介绍了TDB工具的功能。

OpenAI的自动可解释性研究旨在让GPT-4对神经元行为进行自然语言解释，并将其应用于GPT-2。研究分为三个步骤：首先使用GPT-4生成解释，然后进行模拟，最后进行对比打分。目前，该技术的解释效果在较大模型中较差，但可以通过迭代解释、使用更大的模型等方法提高分数。

研究人员还发现，模型越大，解释的一致率越高。GPT-4在解释方面最接近人类，但仍有差距。此外，OpenAI正在开源使用GPT-4解释GPT-2中全部307,200个神经元的结果数据集和可视化工具，并呼吁学界开发出更好的技术。

稀疏自动编码器在训练过程中具有偏置，研究人员使用Adam优化器训练自动编码器，以使用MSE重建Transformer的MLP激活。在训练过程中，研究人员还对死神经元进行了重采样，以产生更好的结果。

判断指标方面，研究人员使用了手动检查、特征密度、重建损失和玩具模型等多个指标的组合。他们希望从Transformer上训练的稀疏自动编码器中为字典学习解决方案确定更好的指标。

原文信息

【原文链接】 阅读原文
【阅读预估】 2379 / 10分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。