章节 01
AutoCircuit项目导读:自动化发现LLM可解释推理回路的新框架
AI Safety Camp 2025项目AutoCircuit提出自动化发现Transformer模型内部可解释推理回路的系统方法,通过数据挖掘归因图谱结合LLM智能体分析,旨在降低机制可解释性研究门槛,实现实时安全监控。该项目核心目标是系统性识别模型中的稳定计算回路,为AI安全与对齐研究提供支持。
正文
AI Safety Camp 2025项目AutoCircuit提出了一套自动化发现Transformer模型内部可解释推理回路的系统方法,通过数据挖掘归因图谱并结合LLM智能体分析,有望大幅降低机制可解释性研究门槛,实现实时安全监控。
章节 01
AI Safety Camp 2025项目AutoCircuit提出自动化发现Transformer模型内部可解释推理回路的系统方法,通过数据挖掘归因图谱结合LLM智能体分析,旨在降低机制可解释性研究门槛,实现实时安全监控。该项目核心目标是系统性识别模型中的稳定计算回路,为AI安全与对齐研究提供支持。
章节 02
随着LLM能力快速提升,理解其内部工作机制愈发重要。Anthropic 2025年发布的归因图谱方法为机制可解释性开辟新路径,但手动分析大量图谱识别常见计算模式不现实。AutoCircuit作为AI Safety Camp 2025第24号项目,核心目标是通过数据挖掘Neuronpedia生成的归因图谱,利用LLM智能体分析跨提示类别的图谱,识别稳定推理回路。
章节 03
AutoCircuit采用四阶段技术架构:
章节 04
AutoCircuit整合现有可解释性基础设施:采用Anthropic 2025跨层转码器与归因图谱构建算法,结合Neuronpedia模型转向API;利用Claude Sonnet作为智能体分析图谱邻接矩阵模式,提出回路假设并解释激活共现;开发图完整性评分、间接影响矩阵分析等量化指标,指导假设优化并支持人工验证。
章节 05
针对自动化回路发现的假阳性风险,项目设计多层验证机制:要求多个独立确认信号接受回路假设,关键安全发现实施人在回路验证;若自动化标注不可靠则转向半自动化(AI提解释+人工验证);采用图结构指标(中心性、节点距离等)筛选回路子集,由研究人员手动确认以控制智能体偏见。
章节 06
AutoCircuit预期产出经过筛选的可解释推理回路库(附因果作用证据),对AI安全意义重大:
章节 07
项目分三阶段推进:第一阶段实现自动化回路发现与特征标注;第二阶段系统性验证与探索;第三阶段跨模型分析与部署框架开发。产出包括:Neuronpedia发布回路库、GitHub开源代码、arXiv论文及会议投稿。最低目标是半自动化研究加速器,愿景是全面自动化可解释性平台,实时监测危险能力并提供干预措施。