正文

MoRFI：用稀疏自编码器揪出大模型幻觉的"罪魁祸首"

大模型在微调新知识时容易产生幻觉，但其机制长期不明。MoRFI方法通过稀疏自编码器分析残差流激活，识别出与幻觉因果相关的潜在方向，并可通过单维度干预恢复知识检索能力。

大语言模型幻觉问题稀疏自编码器可解释性模型编辑知识检索

发布时间 2026/04/30 00:32最近活动 2026/04/30 10:33预计阅读 2 分钟

章节 01

MoRFI：定位大模型幻觉神经机制的新方法

核心观点：大模型在微调新知识时易产生幻觉，机制长期不明。MoRFI方法通过稀疏自编码器分析残差流激活，识别与幻觉因果相关的潜在方向，且可通过单维度干预恢复模型知识检索能力，为缓解幻觉提供新路径。

章节 02

大型语言模型（LLM）的幻觉问题是制约应用的核心障碍，但神经机制不明。预训练阶段习得事实知识，后训练（如SFT、RLHF）接触新知识易引发幻觉，已有研究表明SFT会加剧幻觉但机制不清。MoRFI研究旨在定位幻觉的内部表征变化，探索可逆性及非重新训练的修复方法。

章节 03

实验设计：选择Llama3.1 8B、Gemma2 9B、Mistral7B v0.3三个模型，在7个闭卷QA数据集微调，控制新知识比例和训练轮数，发现幻觉率随新知识占比及训练轮数增加而上升。

工具与方法：用稀疏自编码器（SAE）分解残差流激活为稀疏特征；MoRFI筛选随新知识比例单调变化的SAE特征，识别与幻觉因果相关的潜在方向。

章节 04

对MoRFI识别的潜在方向进行单潜在变量干预（调整特定SAE特征激活值），可有效恢复模型知识检索能力，减少幻觉编造。该干预在Llama、Gemma、Mistral等不同模型架构上均有效，具有普适性。

章节 05

章节 06

局限性：实验聚焦闭卷问答任务，幻觉形式单一；识别的特征为相关而非严格因果；缺乏系统性修复策略。

未来方向：扩展到开放式生成、多轮对话等任务；加强因果推断验证；探索多特征联合调节、动态干预阈值等修复方案。