章节 01
【ASD复现项目导读】双向隐状态干预缓解VLM幻觉的核心方案
ASD复现项目聚焦于通过双向隐状态干预技术(Activation Steering Decoding)减轻LLaVA风格视觉语言模型(VLM)中的物体幻觉问题。该项目提供完整的引导向量生成、评估及超参数搜索工作流,无需重新训练模型即可实现幻觉抑制,为VLM的可靠应用提供轻量级解决方案。
正文
介绍ASD(Activation Steering Decoding)复现项目,实现通过双向隐状态干预技术减少LLaVA风格视觉语言模型中的物体幻觉问题,提供完整的引导向量生成、评估和超参数搜索工作流。
章节 01
ASD复现项目聚焦于通过双向隐状态干预技术(Activation Steering Decoding)减轻LLaVA风格视觉语言模型(VLM)中的物体幻觉问题。该项目提供完整的引导向量生成、评估及超参数搜索工作流,无需重新训练模型即可实现幻觉抑制,为VLM的可靠应用提供轻量级解决方案。
章节 02
视觉语言模型(如LLaVA、MiniGPT-4)在图像理解任务中表现出色,但幻觉(生成不存在物体/属性)严重影响可靠性。传统缓解方法(指令微调、RLHF、检索增强)需大量数据或计算资源。ASD作为轻量级推理时干预方法,通过调节隐状态抑制幻觉,无需重训模型。ASD复现项目提供开源清理版本,支持复现、评估及超参数探索。
章节 03
ASD采用双向隐状态干预:正向引导(增强真实物体激活)与负向抑制(降低幻觉倾向)。引导向量生成步骤:1. 使用POPE数据集;2. 对比幻觉/非幻觉样本隐状态;3. 计算差异得引导向量;4. 归一化保存。解码时,每步获取隐状态,投影到引导向量方向,按lambda参数调节后继续生成。
章节 04
项目模块化设计:src/含核心脚本(生成引导向量、评估、POPE评分、超参数搜索);llava/为修改后的LLaVA实现(支持ASD干预);output/存储评估结果;steering_vectors/保存引导向量。关键特性:路径清理(相对路径)、环境隔离(conda)、本地spaCy模型、默认输出目录。
章节 05
章节 06
项目含预计算网格搜索结果(贪婪/非贪婪模式)。依赖:LLaVA v1.5模型权重(需自行下载);POPE数据集(评估幻觉)、MSCOCO验证集(图像);计算资源:NVIDIA GPU(7B模型需14GB显存)、足够存储(模型13-26GB,COCO约20GB)。
章节 07
应用场景:幻觉研究分析(验证效果、探索干预位置)、生产部署优化(轻量级无需重训)、教学演示(模型可解释性等)。局限性:仅适配LLaVA架构;引导向量基于POPE数据集,其他任务需验证;超参数敏感需网格搜索;推理速度略有下降。
章节 08
ASD复现项目为VLM幻觉问题提供实用开源方案,双向干预显著降低幻觉率。清理实现与文档降低复现门槛。未来方向:扩展到更多VLM架构、任务自适应引导向量、结合RLHF/检索增强等技术。