近日,OpenAI发表论文《权重稀疏的Transformer具有可解释的电路》,试图从根本上解决AI的不可解释性问题。在AI机制可解释性领域,神经网络的叠加特性使模型难以解读,而OpenAI通过创新方法,为这一难题提供了新的解决方案。
AI不可解释性问题的背景
当下,AI如同黑匣子般统治着时代。以往人们使用AI,只关注其结果,如准确推荐歌曲、识别猫或创作诗歌等。然而,当AI应用于诊断癌症、批准贷款或控制核武器等关键领域时,“怎么做到的”成为无法回避的问题,于是机制可解释性这一AI研究领域应运而生。在该领域,Anthropic贡献了如探针等技术,但因神经网络的叠加特性,这些猜测模糊且多解。
OpenAI解决问题的思路
OpenAI认为,叠加是因模型为节省参数而将概念混在一起,所以其改变思路,设计模型简化计划。具体做法是从头开始训练权重稀疏(Weight - Sparse)的模型,在每个训练步骤后,将每个权重矩阵里除最大的那些值之外的所有参数清零,极端情况下模型仅有千分之一的参数是非零的。这样限制模型动用的关系,使得模型为完成任务,神经元只能负责一个概念,实现解耦。
找到具体任务电路的方法
训练出整洁模型只是第一步,为在庞大参数的模型迷宫中找到处理特定任务的路径,OpenAI采用自动剪枝(Automated Pruning)方法。研究人员为选定的具体任务,给模型里每一个神经元装上可调节的调光器(Mask),通过优化算法,尝试关掉参数灯光,只要不影响任务结果,就彻底关闭该神经元。最终,幸存的节点连接构成能解释具体任务的电路,即从复杂神经网络中提取出的负责具体任务的最小核心子图。
OpenAI新成果展示
借助清晰的电路,研究人员得以读懂AI的思想。在论文中,展示了模型执行“看到引号 -> 记住引号 -> 闭合引号”这一任务时,拆解成的严密写入 - 检索逻辑。模型读到开头引号时,电路组件激活,向信息流写入位置标记和类型标记两条信息。
以上文章由 AI 总结生成




