Zing 论坛

正文

MoRFI:用稀疏自编码器揪出大模型幻觉的"罪魁祸首"

大模型在微调新知识时容易产生幻觉,但其机制长期不明。MoRFI方法通过稀疏自编码器分析残差流激活,识别出与幻觉因果相关的潜在方向,并可通过单维度干预恢复知识检索能力。

大语言模型幻觉问题稀疏自编码器可解释性模型编辑知识检索
发布时间 2026/04/30 00:32最近活动 2026/04/30 10:33预计阅读 2 分钟
MoRFI:用稀疏自编码器揪出大模型幻觉的"罪魁祸首"
1

章节 01

MoRFI:定位大模型幻觉神经机制的新方法

核心观点:大模型在微调新知识时易产生幻觉,机制长期不明。MoRFI方法通过稀疏自编码器分析残差流激活,识别与幻觉因果相关的潜在方向,且可通过单维度干预恢复模型知识检索能力,为缓解幻觉提供新路径。

2

章节 02

大模型幻觉的深层谜团与研究动机

大型语言模型(LLM)的幻觉问题是制约应用的核心障碍,但神经机制不明。预训练阶段习得事实知识,后训练(如SFT、RLHF)接触新知识易引发幻觉,已有研究表明SFT会加剧幻觉但机制不清。MoRFI研究旨在定位幻觉的内部表征变化,探索可逆性及非重新训练的修复方法。

3

章节 03

MoRFI方法与实验设计

实验设计:选择Llama3.1 8B、Gemma2 9B、Mistral7B v0.3三个模型,在7个闭卷QA数据集微调,控制新知识比例和训练轮数,发现幻觉率随新知识占比及训练轮数增加而上升。

工具与方法:用稀疏自编码器(SAE)分解残差流激活为稀疏特征;MoRFI筛选随新知识比例单调变化的SAE特征,识别与幻觉因果相关的潜在方向。

4

章节 04

因果干预验证:单维度修复幻觉的效果

对MoRFI识别的潜在方向进行单潜在变量干预(调整特定SAE特征激活值),可有效恢复模型知识检索能力,减少幻觉编造。该干预在Llama、Gemma、Mistral等不同模型架构上均有效,具有普适性。

5

章节 05

MoRFI研究的意义与启示

  1. 提供幻觉的机制性解释:揭示特定潜在方向异常激活是幻觉的神经基础;
  2. 展示SAE在LLM可解释性中的潜力,可推广到偏见、毒性等AI安全问题;
  3. 暗示轻量级模型编辑方案:局部干预特定特征比重新训练更高效。
6

章节 06

局限性与未来研究方向

局限性:实验聚焦闭卷问答任务,幻觉形式单一;识别的特征为相关而非严格因果;缺乏系统性修复策略。

未来方向:扩展到开放式生成、多轮对话等任务;加强因果推断验证;探索多特征联合调节、动态干预阈值等修复方案。