章节 01
MoRFI:定位大模型幻觉神经机制的新方法
核心观点:大模型在微调新知识时易产生幻觉,机制长期不明。MoRFI方法通过稀疏自编码器分析残差流激活,识别与幻觉因果相关的潜在方向,且可通过单维度干预恢复模型知识检索能力,为缓解幻觉提供新路径。
正文
大模型在微调新知识时容易产生幻觉,但其机制长期不明。MoRFI方法通过稀疏自编码器分析残差流激活,识别出与幻觉因果相关的潜在方向,并可通过单维度干预恢复知识检索能力。
章节 01
核心观点:大模型在微调新知识时易产生幻觉,机制长期不明。MoRFI方法通过稀疏自编码器分析残差流激活,识别与幻觉因果相关的潜在方向,且可通过单维度干预恢复模型知识检索能力,为缓解幻觉提供新路径。
章节 02
大型语言模型(LLM)的幻觉问题是制约应用的核心障碍,但神经机制不明。预训练阶段习得事实知识,后训练(如SFT、RLHF)接触新知识易引发幻觉,已有研究表明SFT会加剧幻觉但机制不清。MoRFI研究旨在定位幻觉的内部表征变化,探索可逆性及非重新训练的修复方法。
章节 03
实验设计:选择Llama3.1 8B、Gemma2 9B、Mistral7B v0.3三个模型,在7个闭卷QA数据集微调,控制新知识比例和训练轮数,发现幻觉率随新知识占比及训练轮数增加而上升。
工具与方法:用稀疏自编码器(SAE)分解残差流激活为稀疏特征;MoRFI筛选随新知识比例单调变化的SAE特征,识别与幻觉因果相关的潜在方向。
章节 04
对MoRFI识别的潜在方向进行单潜在变量干预(调整特定SAE特征激活值),可有效恢复模型知识检索能力,减少幻觉编造。该干预在Llama、Gemma、Mistral等不同模型架构上均有效,具有普适性。
章节 05
章节 06
局限性:实验聚焦闭卷问答任务,幻觉形式单一;识别的特征为相关而非严格因果;缺乏系统性修复策略。
未来方向:扩展到开放式生成、多轮对话等任务;加强因果推断验证;探索多特征联合调节、动态干预阈值等修复方案。