OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱

AIGC动态7个月前发布 AIera
658 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱
 

文章摘要


【关 键 词】 OpenAITransformer调试器人工通用智能自动可解释性稀疏自动编码器

新智元报道OpenAI超级对齐团队负责人宣布开源Transformer调试器(TDB),这将使研究人员能够在不编写代码的情况下快速探索大型语言模型(LLM)的内部结构。这一进展有望为实现人工通用智能(AGI)提供助力。

去年5月,OpenAI发布了一个重要发现,即GPT-4能够解释GPT-2的30万神经元。这一成果引起了广泛关注。现在,OpenAI推出的Transformer调试器结合了稀疏自动编码器自动可解释性技术,使研究人员能够更容易地分析Transformer的内部结构。项目地址为:https://github.com/openai/transformer-debugger。

Transformer调试器的工作原理基于OpenAI在2023年5月发布的对齐研究。该工具通过使用GPT-4分析GPT-2的行为,解释其运行机制。TDB工具将大模型解释小模型的过程零代码化,降低了研究人员上手的门槛。在GitHub项目主页上,OpenAI团队成员通过视频介绍了TDB工具的功能。

OpenAI的自动可解释性研究旨在让GPT-4对神经元行为进行自然语言解释,并将其应用于GPT-2。研究分为三个步骤:首先使用GPT-4生成解释,然后进行模拟,最后进行对比打分。目前,该技术的解释效果在较大模型中较差,但可以通过迭代解释、使用更大的模型等方法提高分数。

研究人员还发现,模型越大,解释的一致率越高。GPT-4在解释方面最接近人类,但仍有差距。此外,OpenAI正在开源使用GPT-4解释GPT-2中全部307,200个神经元的结果数据集和可视化工具,并呼吁学界开发出更好的技术。

稀疏自动编码器在训练过程中具有偏置,研究人员使用Adam优化器训练自动编码器,以使用MSE重建Transformer的MLP激活。在训练过程中,研究人员还对死神经元进行了重采样,以产生更好的结果。

判断指标方面,研究人员使用了手动检查、特征密度、重建损失和玩具模型等多个指标的组合。他们希望从Transformer上训练的稀疏自动编码器中为字典学习解决方案确定更好的指标。

原文信息


【原文链接】 阅读原文
【阅读预估】 2379 / 10分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

© 版权声明

相关文章

暂无评论

暂无评论...