他们掰开神经元,终于让大模型9.8大于9.11了:神秘创业公司,开源AI「洗脑」工具

他们掰开神经元,终于让大模型9.8大于9.11了:神秘创业公司,开源AI「洗脑」工具

 

文章摘要


【关 键 词】 AI界面语言模型神经元分析行为修正开源技术

AI研究实验室Transluce开发了一款名为Monitor的交互界面,旨在帮助人类观察、理解和引导语言模型的内部计算。该界面通过分析模型预测词的概率分布,寻找影响特定预测结果的神经元,并进行聚类,从而揭示模型出错的原因。例如,Llama 3.1 8B模型在比较9.8和9.11大小时,会将9.11误认为日期,导致判断错误。通过分析神经元,可以发现模型将9.11与9/11事件、《圣经》章节等概念关联,触发不同的神经元组合。

Monitor还提供了检查技术,可以通过将相关激活设置为0来修正AI模型的行为。例如,在Llama 3.1 8B模型中,将与日期相关的神经元激活设置为0后,模型虽然仍判断错误,但错误概率大幅下降。进一步将与《圣经》章节编号相关的神经元激活也设置为0后,模型终于给出了正确答案。

除了比较数字大小,Monitor还提供了其他示例,如修复AI难以数值排序的问题、引导出隐藏知识、引导故事中特定角色等。操作包括将激活清零、增强特定神经元等,以引导模型生成符合用户需求的结果。

Monitor的基本构成包括:1)预先编译的高质量神经元描述数据库;2)实时界面,显示聊天对话的重要概念;3)实时AI检查器,自动显示误导性线索的神经元簇;4)语义引导的转向,增加或降低与概念相关的神经元集合的强度。

Transluce成立于2024年7月,是一个非营利性研究实验室,致力于构建开源、可扩展的技术,以理解AI系统并引导它们服务于公共利益。他们将构建AI驱动的技术来理解和分析AI系统,并将其开源发布,以便社区能够理解并在此基础上进行构建。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 4036字 | 17分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...