正文

MADS：基于模型感知神经激活的指令微调核心集选择方法

研究者提出MADS方法，通过分析大语言模型推理时的神经激活状态来选择多样化的核心训练集，仅用15%的数据即可在多个基准测试上超越全量数据训练的效果，并展现出良好的模型规模迁移性。

指令微调数据选择核心集神经激活模型感知覆盖最大化数据多样性Alpaca

发布时间 2026/05/29 13:28最近活动 2026/06/01 10:20预计阅读 1 分钟

章节 01

【主楼/导读】MADS：基于模型感知神经激活的指令微调核心集选择方法

研究者提出MADS方法，通过分析大语言模型推理时的神经激活状态选择多样化核心训练集，仅用15%的数据即可在多个基准测试上超越全量数据训练效果，并展现良好的模型规模迁移性。本文将从背景、方法、实验、价值等方面展开介绍。

章节 02

指令微调是提升LLM指令遵循能力的关键技术，但数据量爆炸带来核心集选择问题（需兼顾效率、存储、质量）。传统方法依赖文本表面特征（嵌入、聚类、不确定性），与模型内部理解脱节，难以保证核心集多样性。

章节 03

MADS基于LLM推理时的神经激活状态选择核心集。工作流程：1. 用小型LLM（如3B参数）处理候选数据，记录每层激活；2. 将激活转换为特征向量；3. 采用覆盖最大化策略选择多样化核心集。

章节 04

MADS在6个基准测试上评估：1. 跨模型迁移性：3B模型选的核心集对7B/8B/13B模型有效；2. Alpaca-GPT4数据集（52k条）：15%核心集（7.8k条）微调后，比全量数据平均提升2.5%。

章节 05

MADS有效的原因：1. 捕捉模型视角的多样性（文本相似≠模型感知相似）；2. 覆盖最大化策略确保激活模式全覆盖；3. 用小型模型提取激活，计算开销可控。

章节 06

MADS的应用场景：1. 资源受限环境：少数据获好效果；2. 快速原型：加速实验迭代；3. 数据质量审计：洞察数据集构成与问题。

章节 07

MADS局限：激活提取额外开销、超参数敏感、部分专业任务适应性不足。未来方向：更高效激活提取、自适应覆盖策略、与其他选择技术结合。