# 优化器-模型一致性：预训练与微调使用相同优化器可减少知识遗忘

> 研究发现预训练和微调使用相同优化器能实现更好的学习-遗忘权衡，通过理论分析和实验验证揭示了优化器对模型激活的正则化效应，并发现Muon优化器在推理任务微调中存在死记硬背倾向。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-07T17:57:02.000Z
- 最近活动: 2026-05-08T03:57:14.727Z
- 热度: 141.0
- 关键词: 优化器一致性, 灾难性遗忘, 全量微调, LoRA, AdamW, Muon, 监督微调, 模型迁移
- 页面链接: https://www.zingnex.cn/forum/thread/llm-arxiv-2605-06654v1
- Canonical: https://www.zingnex.cn/forum/thread/llm-arxiv-2605-06654v1
- Markdown 来源: ingested_event

---

## 微调中的遗忘困境\n\n大型语言模型的训练通常分为两个阶段：**预训练**和**微调**。预训练阶段在大规模无标注数据上学习通用语言表示，微调阶段则在特定任务的标注数据上进行调整。\n\n然而，微调过程面临一个根本性的张力：**学习新任务 vs 保留旧知识**。当模型在特定任务上进行微调时，它可能会"遗忘"预训练阶段学到的通用知识，这种现象被称为**灾难性遗忘**(catastrophic forgetting)。\n\n### 现有解决方案及其局限\n\n业界已经提出了多种缓解遗忘的方法：\n\n**参数高效微调(PEFT)**：如LoRA、Adapter等方法，通过只更新少量参数来保持大部分预训练权重不变。这些方法确实减少了遗忘，但通常以牺牲任务性能为代价。\n\n**正则化方法**：如EWC、SI等方法，在损失函数中添加正则项来保护重要参数。这些方法增加了训练复杂度，且超参数调优困难。\n\n**回放方法**：在微调时混合预训练数据，但这需要保留大量预训练数据，成本高昂。\n\n**学习率调整**：降低学习率可以减少遗忘，但也减慢了学习速度。\n\n## 惊人发现：优化器一致性的力量\n\n本研究提出了一个简单但令人惊讶的发现：**在监督微调(SFT)阶段，使用与预训练相同的优化器进行全量微调，比使用其他优化器(甚至LoRA)能实现更好的学习-遗忘权衡**。\n\n### 什么是优化器-模型一致性？\n\n研究者将这一现象命名为**优化器-模型一致性**(Optimizer-Model Consistency)，其核心思想是：优化器不仅是更新权重的工具，还会塑造模型的特性。当预训练和微调使用相同优化器时，模型在微调过程中"遗忘"的预训练知识更少，同时在新任务上达到相同甚至更好的性能。\n\n### 实验观察\n\n在控制实验中，研究者比较了不同微调策略：\n\n**全量微调 + 相同优化器**：使用与预训练相同的优化器(如AdamW)进行全量微调\n**全量微调 + 不同优化器**：使用不同的优化器(如SGD、Adagrad等)进行全量微调\n**LoRA微调**：使用低秩适配进行参数高效微调\n\n结果显示，**全量微调 + 相同优化器**在遗忘指标上显著优于其他方法，同时在新任务性能上保持竞争力。更令人惊讶的是，它甚至优于被广泛认为可以减少遗忘的LoRA方法。\n\n## 理论分析：优化器如何塑造模型？\n\n为了理解这一现象，研究者进行了深入的理论分析，揭示了优化器影响模型的两个关键机制：\n\n### 机制一：激活的正则化效应\n\n优化器通过更新规则对模型的**激活**(activations)产生正则化效应，进而影响损失函数周围的 landscape：\n\n**AdamW的特性**：AdamW使用自适应学习率和权重衰减，这导致它在更新时倾向于保持激活的某种统计特性(如均值、方差)。\n\n**优化器指纹**：不同的优化器会在模型中留下不同的"指纹"——特定的激活分布模式。当微调使用不同优化器时，这些模式需要被改变，导致额外的"适应成本"。\n\n**损失 landscape 的形状**：优化器的选择影响了损失函数在参数空间中的局部形状。使用相同优化器意味着在相似的 landscape 中进行优化，减少了"地形变化"带来的干扰。\n\n### 机制二：权重更新的结构约束\n\n为了最小化预训练知识的遗忘，微调时的权重更新应该遵循特定的结构。研究发现，使用相同优化器自然地满足了这一约束：\n\n**更新方向的兼容性**：相同优化器产生的更新方向与预训练阶段的更新方向更兼容，减少了"冲突性"更新。\n\n**累积动量的连续性**：对于使用动量的优化器(如AdamW)，微调时延续预训练的动量状态，保持了优化轨迹的连续性。\n\n**自适应学习率的稳定性**：自适应优化器(如AdamW)为每个参数维护的学习率估计在预训练和微调之间保持一致，避免了突然的学习率变化。\n\n## Muon vs AdamW：优化器选择的影响\n\n研究特别比较了两种优化器在预训练和SFT全流程中的表现：\n\n### Muon优化器\n\nMuon是一种新兴的优化器，在某些任务上表现出色。然而，研究发现：\n\n**推理任务上的表现**：当使用Muon进行预训练，然后在推理任务上进行SFT时，Muon的表现**劣于AdamW**。\n\n**死记硬背倾向**：通过合成语言建模实验，研究者发现Muon具有强烈的**死记硬背**(rote memorization)倾向。这意味着Muon倾向于记忆训练数据中的具体模式，而不是学习可泛化的规则。\n\n**小数据集的劣势**：在SFT阶段，数据量通常远小于预训练。Muon的记忆倾向在小数据集上表现尤为明显——它可能过度拟合训练样本，损害泛化能力。\n\n### AdamW的优势\n\n相比之下，AdamW在预训练到SFT的迁移中表现更稳健：\n\n**泛化能力**：AdamW学习到的表示更具泛化性，在新任务上更容易适应。\n\n**稳定性**：AdamW的超参数对不同的任务和数据集更鲁棒，减少了调参负担。\n\n**一致性收益**：当预训练和SFT都使用AdamW时，优化器-模型一致性效应最明显，遗忘最少。\n\n## 实验验证：合成语言建模\n\n为了深入理解优化器的行为差异，研究者设计了一个合成语言建模实验：\n\n### 实验设计\n\n**任务**：学习一个具有特定结构的人工语言\n**数据**：包含可学习的模式(grammatical rules)和需要记忆的实例(vocabulary)\n**评估**：分别测试模型学习规则和记忆词汇的能力\n\n### 关键发现\n\n**Muon的记忆优势**：Muon在记忆任务上表现更好，能够更快更准确地记住训练样本。\n\n**Muon的模式学习劣势**：Muon在学习可泛化规则时表现较差，倾向于依赖记忆而非理解。\n\n**AdamW的平衡**：AdamW在记忆和模式学习之间取得了更好的平衡，这对于需要泛化的任务至关重要。\n\n**对SFT的启示**：SFT阶段通常数据量小且需要快速适应，Muon的记忆倾向可能成为劣势，而AdamW的泛化能力更有价值。\n\n## 实际应用建议\n\n基于这些发现，研究者为LLM微调实践提供了具体建议：\n\n### 优先保持优化器一致性\n\n如果知道预训练使用的优化器，微调时应**优先使用相同优化器**。这是减少遗忘的最简单有效的方法之一。\n\n### 谨慎选择Muon\n\n虽然Muon在某些场景下表现出色，但在需要预训练到微调迁移的场景中应谨慎使用，特别是：\n\n- 微调数据量较小时\n- 任务需要强泛化能力时\n- 预训练使用的不是Muon时\n\n### 全量微调的价值重估\n\n传统观点认为LoRA等PEFT方法必然比全量微调遗忘更少。本研究表明，**在优化器一致性条件下，全量微调的遗忘可能少于LoRA**。这为全量微调的适用性提供了新的视角。\n\n### 超参数调优策略\n\n当无法保持优化器一致性时，可以通过以下方式缓解遗忘：\n\n- 降低学习率\n- 使用更小的权重衰减\n- 增加预热步数\n- 考虑混合预训练数据进行回放\n\n## 局限与未来方向\n\n本研究虽然提供了重要洞察，但仍有局限：\n\n**优化器覆盖有限**：当前研究主要关注AdamW和Muon，其他优化器(如Lion、Adafactor等)的行为有待探索。\n\n**任务类型局限**：实验主要集中在语言建模和推理任务，其他任务类型(如代码生成、多模态理解)的表现需要验证。\n\n**规模效应**：研究主要在中小规模模型上进行，超大规模模型(数百亿参数)上的效应可能有所不同。\n\n**理论深度**：虽然提出了激活正则化和更新结构的解释，但更深层的理论理解(如从优化动力学角度)仍有待发展。\n\n未来研究方向包括：\n\n**优化器指纹分析**：系统研究不同优化器在模型中留下的"指纹"特征，开发检测和匹配方法。\n\n**动态优化器切换**：探索在训练过程中动态切换优化器的可能性，平衡不同阶段的需求。\n\n**元优化器学习**：训练一个元模型来预测哪种优化器最适合特定的预训练-微调配置。\n\n**神经架构搜索**：结合优化器选择和架构搜索，找到最优的预训练-微调组合。\n\n**遗忘量化方法**：开发更精细的遗忘量化指标，区分不同类型的知识遗忘(如事实性知识vs程序性知识)。\n\n## 结语\n\n优化器-模型一致性的发现为LLM微调实践提供了一个简单但有效的指导原则：保持预训练和微调的优化器一致。这一发现挑战了关于PEFT方法必然更优的直觉，揭示了优化器选择在模型训练中的深层影响。随着LLM应用的不断扩展，理解这些训练动态对于高效、可持续地部署AI系统至关重要。