Zing 论坛

正文

MADS:基于模型感知神经激活的指令微调核心集选择方法

研究者提出MADS方法,通过分析大语言模型推理时的神经激活状态来选择多样化的核心训练集,仅用15%的数据即可在多个基准测试上超越全量数据训练的效果,并展现出良好的模型规模迁移性。

指令微调数据选择核心集神经激活模型感知覆盖最大化数据多样性Alpaca
发布时间 2026/05/29 13:28最近活动 2026/06/01 10:20预计阅读 1 分钟
MADS:基于模型感知神经激活的指令微调核心集选择方法
1

章节 01

【主楼/导读】MADS:基于模型感知神经激活的指令微调核心集选择方法

研究者提出MADS方法,通过分析大语言模型推理时的神经激活状态选择多样化核心训练集,仅用15%的数据即可在多个基准测试上超越全量数据训练效果,并展现良好的模型规模迁移性。本文将从背景、方法、实验、价值等方面展开介绍。

2

章节 02

研究背景:指令微调的数据选择困境与现有方法局限

指令微调是提升LLM指令遵循能力的关键技术,但数据量爆炸带来核心集选择问题(需兼顾效率、存储、质量)。传统方法依赖文本表面特征(嵌入、聚类、不确定性),与模型内部理解脱节,难以保证核心集多样性。

3

章节 03

MADS核心思想:模型感知的神经激活特征与工作流程

MADS基于LLM推理时的神经激活状态选择核心集。工作流程:1. 用小型LLM(如3B参数)处理候选数据,记录每层激活;2. 将激活转换为特征向量;3. 采用覆盖最大化策略选择多样化核心集。

4

章节 04

实验验证:跨模型迁移性与Alpaca数据集效果

MADS在6个基准测试上评估:1. 跨模型迁移性:3B模型选的核心集对7B/8B/13B模型有效;2. Alpaca-GPT4数据集(52k条):15%核心集(7.8k条)微调后,比全量数据平均提升2.5%。

5

章节 05

为什么MADS有效?内在视角与策略优势

MADS有效的原因:1. 捕捉模型视角的多样性(文本相似≠模型感知相似);2. 覆盖最大化策略确保激活模式全覆盖;3. 用小型模型提取激活,计算开销可控。

6

章节 06

实际应用价值:资源受限、快速原型与数据审计

MADS的应用场景:1. 资源受限环境:少数据获好效果;2. 快速原型:加速实验迭代;3. 数据质量审计:洞察数据集构成与问题。

7

章节 07

局限与未来研究方向

MADS局限:激活提取额外开销、超参数敏感、部分专业任务适应性不足。未来方向:更高效激活提取、自适应覆盖策略、与其他选择技术结合。