Zing 论坛

正文

AutoCircuit:自动化发现大语言模型可解释推理回路的新框架

AI Safety Camp 2025项目AutoCircuit提出了一套自动化发现Transformer模型内部可解释推理回路的系统方法,通过数据挖掘归因图谱并结合LLM智能体分析,有望大幅降低机制可解释性研究门槛,实现实时安全监控。

mechanistic interpretabilityAI safetytransformer circuitsattribution graphsautomated discoveryLLMNeuronpediaAI alignment
发布时间 2026/04/06 04:08最近活动 2026/04/06 04:22预计阅读 2 分钟
AutoCircuit:自动化发现大语言模型可解释推理回路的新框架
1

章节 01

AutoCircuit项目导读:自动化发现LLM可解释推理回路的新框架

AI Safety Camp 2025项目AutoCircuit提出自动化发现Transformer模型内部可解释推理回路的系统方法,通过数据挖掘归因图谱结合LLM智能体分析,旨在降低机制可解释性研究门槛,实现实时安全监控。该项目核心目标是系统性识别模型中的稳定计算回路,为AI安全与对齐研究提供支持。

2

章节 02

项目背景与研究动机

随着LLM能力快速提升,理解其内部工作机制愈发重要。Anthropic 2025年发布的归因图谱方法为机制可解释性开辟新路径,但手动分析大量图谱识别常见计算模式不现实。AutoCircuit作为AI Safety Camp 2025第24号项目,核心目标是通过数据挖掘Neuronpedia生成的归因图谱,利用LLM智能体分析跨提示类别的图谱,识别稳定推理回路。

3

章节 03

核心方法论与技术架构

AutoCircuit采用四阶段技术架构:

  1. 自动化图谱收集:通过Neuronpedia API批量生成不同提示类别(事实回忆、算术运算等)的归因图谱,提升覆盖范围与效率;
  2. 图谱简化算法:过滤噪声节点,保留核心计算结构;
  3. 模式识别:分析跨上下文图谱,识别重复出现的回路基序;
  4. 因果验证:通过特征消融、激活修补等干预验证回路的因果作用。
4

章节 04

技术实现与工具链

AutoCircuit整合现有可解释性基础设施:采用Anthropic 2025跨层转码器与归因图谱构建算法,结合Neuronpedia模型转向API;利用Claude Sonnet作为智能体分析图谱邻接矩阵模式,提出回路假设并解释激活共现;开发图完整性评分、间接影响矩阵分析等量化指标,指导假设优化并支持人工验证。

5

章节 05

风险管控与验证策略

针对自动化回路发现的假阳性风险,项目设计多层验证机制:要求多个独立确认信号接受回路假设,关键安全发现实施人在回路验证;若自动化标注不可靠则转向半自动化(AI提解释+人工验证);采用图结构指标(中心性、节点距离等)筛选回路子集,由研究人员手动确认以控制智能体偏见。

6

章节 06

预期成果与安全意义

AutoCircuit预期产出经过筛选的可解释推理回路库(附因果作用证据),对AI安全意义重大:

  1. 民主化机制可解释性研究,降低专业门槛;
  2. 支持实时安全监控,主动识别模型不对齐迹象;
  3. 加速AI对齐研究,针对性干预模型决策过程。
7

章节 07

项目规划与产出

项目分三阶段推进:第一阶段实现自动化回路发现与特征标注;第二阶段系统性验证与探索;第三阶段跨模型分析与部署框架开发。产出包括:Neuronpedia发布回路库、GitHub开源代码、arXiv论文及会议投稿。最低目标是半自动化研究加速器,愿景是全面自动化可解释性平台,实时监测危险能力并提供干预措施。