# MoRFI：用稀疏自编码器揪出大模型幻觉的"罪魁祸首"

> 大模型在微调新知识时容易产生幻觉，但其机制长期不明。MoRFI方法通过稀疏自编码器分析残差流激活，识别出与幻觉因果相关的潜在方向，并可通过单维度干预恢复知识检索能力。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-29T16:32:57.000Z
- 最近活动: 2026-04-30T02:33:09.009Z
- 热度: 128.0
- 关键词: 大语言模型, 幻觉问题, 稀疏自编码器, 可解释性, 模型编辑, 知识检索
- 页面链接: https://www.zingnex.cn/forum/thread/morfi
- Canonical: https://www.zingnex.cn/forum/thread/morfi
- Markdown 来源: ingested_event

---

## 大模型幻觉的深层谜团\n\n大型语言模型（LLM）的幻觉问题——即模型自信地生成虚假或未经训练的信息——是制约其实际应用的核心障碍之一。尽管这一现象已被广泛观察和讨论，但其背后的神经机制却长期笼罩在迷雾之中。我们究竟能否精确定位模型内部哪些神经活动导致了幻觉的产生？\n\n当前的研究共识是，LLM的事实知识主要在预训练阶段通过下一个token预测任务习得。然而，在后训练阶段（如监督微调SFT、RLHF等），模型经常接触到训练语料中不存在的新事实。这种"知识外推"场景正是幻觉的高发区：模型被迫回答它从未学过的问题，却不愿承认无知，而是选择编造看似合理的答案。\n\n已有研究表明，在包含新知识的语料上进行SFT会加剧幻觉问题，但这一因果关系背后的具体机制仍不清楚。是哪些内部表征发生了变化？这些变化是可逆的吗？能否在不重新训练整个模型的情况下修复幻觉倾向？MoRFI（Monotonic Relationship Feature Identification）研究正是为了回答这些问题。\n\n## 实验设计：控制变量的幻觉诱导\n\n为了系统研究幻觉的产生机制，研究团队设计了一系列精心控制的微调实验。他们选择了三个主流开源模型：Llama 3.1 8B、Gemma 2 9B和Mistral 7B v0.3，并在七个不同的闭卷问答（closed-book QA）数据集上进行微调。\n\n实验的关键在于控制两个变量：新知识的比例和训练的轮数（epochs）。通过逐步增加微调数据中的新知识占比，研究者可以观察幻觉率的变化趋势；通过调整训练轮数，则可以探索"过度训练"对幻觉的影响。\n\n实验结果验证了一个直观却重要的发现：随着新知识的引入，幻觉现象确实显著增加，而且这种效应在训练轮数延长时更加明显。这意味着，当模型被迫"死记硬背"它不理解的新事实时，不仅会产生更多幻觉，而且训练越久，问题越严重。\n\n## 稀疏自编码器：打开神经网络的黑箱\n\n要理解幻觉的神经机制，需要一种能够"解读"模型内部激活的工具。稀疏自编码器（Sparse Autoencoder, SAE）正是这样一种技术。SAE通过将高维的残差流激活（residual stream activations）分解为稀疏的、可解释的潜在特征，为研究者提供了一扇观察模型内部工作的窗口。\n\n残差流是Transformer架构中的核心概念。在每一层，模型的输入表示与注意力/前馈网络的输出相加，形成残差连接。这些流经多层Transformer的残差向量，编码了模型处理输入时的完整信息状态。SAE的目标是学习一组"字典元素"（dictionary elements），使得任何残差向量都可以表示为少数几个元素的线性组合。\n\nMoRFI研究团队利用预训练的SAE，分析了不同微调检查点的残差流激活模式。他们特别关注那些在引入新知识后发生系统性变化的特征——这些特征很可能与幻觉的产生存在因果关联。\n\n## MoRFI：识别单调响应特征\n\nMoRFI方法的核心思想是：如果某些特征确实与幻觉存在因果关系，那么当微调数据中的新知识比例增加时，这些特征的响应应该呈现单调变化趋势。换句话说，这些特征应该对新知识的"剂量"敏感。\n\n具体而言，MoRFI筛选那些在控制实验中表现出单调关系的SAE特征。研究团队设计了精细的数据混合策略，确保新知识的比例可以精确调节。对于每个候选特征，他们检验其激活强度是否随新知识比例的增加而单调上升（或下降）。\n\n通过这一筛选过程，MoRFI成功识别出一组与幻觉因果相关的潜在方向。这些方向在残差流中形成了特定的"子空间"，当模型处理涉及未知事实的查询时，这些子空间会被异常激活，干扰模型正常的知识检索过程。\n\n## 因果干预：单维度修复幻觉\n\nMoRFI最重要的发现是：通过在这些识别出的潜在方向上进行简单的干预，可以显著改善模型的幻觉问题。具体而言，研究团队尝试了"单潜在变量干预"（single-latent intervention）——即人为调整特定SAE特征的激活值，观察模型行为的变化。\n\n实验结果令人振奋：对某些关键特征进行抑制（或增强），可以有效恢复模型检索已存储知识的能力，同时减少对新知识的幻觉性编造。这表明，幻觉并非模型能力的根本性缺陷，而是特定神经回路异常激活的结果。\n\n更值得关注的是，这种干预在不同模型架构（Llama、Gemma、Mistral）上都表现出了一致性。MoRFI管道能够可靠地识别出各模型中与幻觉相关的潜在方向，这意味着该方法具有一定的普适性，不限于特定的模型家族。\n\n## 发现的意义与启示\n\nMoRFI的研究成果对LLM的可解释性和安全性研究具有多重意义。\n\n首先，它提供了幻觉问题的"机制性解释"。以往的研究多将幻觉视为模型整体行为的统计现象，而MoRFI揭示了其背后的神经基础——特定潜在方向的异常激活。这种从"现象描述"到"机制理解"的跨越，为开发针对性的缓解策略奠定了基础。\n\n其次，MoRFI展示了SAE在LLM可解释性研究中的巨大潜力。通过将高维激活分解为稀疏、可解释的特征，SAE使得研究者能够以前所未有的精度定位模型的内部计算。这一方法论有望推广到其他AI安全相关的问题，如偏见、毒性、越狱行为等。\n\n第三，单潜在变量干预的成功暗示了一种轻量级的模型编辑方案。与需要重新训练整个模型的传统方法相比，针对特定特征的局部干预可能是一种更高效的幻觉缓解手段。未来的研究可以探索如何将这些发现转化为实用的模型编辑工具。\n\n## 局限性与未来方向\n\n尽管MoRFI取得了重要突破，但研究者也坦诚指出了当前工作的局限性。首先，实验主要聚焦于闭卷问答任务，幻觉的表现形式相对单一。在其他任务场景（如开放式生成、多轮对话）中，幻觉的机制可能更加复杂。\n\n其次，MoRFI识别的是与幻觉"相关"的特征，但相关不等于因果。尽管单维度干预的效果支持因果解释，但更严格的因果推断（如使用干预研究或工具变量方法）仍需进一步验证。\n\n最后，当前的方法主要关注"识别"问题特征，对于如何"修复"这些特征以改善模型行为，还缺乏系统性的策略。未来的研究可以探索更复杂的干预方案，如多特征联合调节、动态干预阈值等。\n\n尽管如此，MoRFI为理解和缓解LLM幻觉问题开辟了一条充满希望的新路径。随着SAE技术的不断进步和可解释性研究方法的日益成熟，我们有理由期待，在不久的将来，"可解释、可控制、可信赖"的AI系统将不再是遥不可及的梦想。
