正文

ESSAM：融合进化策略与锐度感知最大化的大模型数学推理优化方法

本文介绍ESSAM，一种结合进化策略(ES)和锐度感知最大化(SAM)的零阶微调方法，专为提升大语言模型数学推理能力而设计。

零阶优化进化策略SAM大语言模型数学推理微调ESsharpness-aware

发布时间 2026/04/10 17:38最近活动 2026/04/10 17:44预计阅读 2 分钟

章节 01

ESSAM方法导读：融合ES与SAM的零阶微调提升大模型数学推理

本文介绍ESSAM，一种结合进化策略(ES)和锐度感知最大化(SAM)的零阶微调方法，专为提升大语言模型数学推理能力设计。传统基于反向传播的微调计算压力大，零阶优化虽内存高效但复杂任务表现不足，ESSAM通过融合两种技术，在保持零阶方法内存优势的同时提升优化效果。

章节 02

随着大语言模型规模扩大，传统反向传播微调需存储计算庞大梯度，显存和算力要求极高。零阶优化(Zeroth-Order Optimization)应运而生，仅通过前向传播估计梯度，大幅降低内存开销。但零阶方法在复杂任务（如数学推理）上表现往往不及梯度方法，如何平衡内存效率与优化效果是研究重点。

章节 03

ESSAM将进化策略(ES)与锐度感知最大化(SAM)结合。ES通过参数空间随机扰动探索模型行为，无需反向传播、并行友好、鲁棒性强；SAM关注损失函数锐度，寻找泛化友好的平坦最优解。ESSAM创新在于将SAM引入零阶框架，每次迭代评估当前参数表现及损失曲面局部几何特性，引导优化向更平坦区域。

章节 04

ESSAM优化流程包括四步：1.扰动采样：从标准正态分布采样随机扰动向量；2.锐度估计：计算每个扰动方向的损失变化，近似Hessian信息；3.方向聚合：结合ES探索能力与SAM锐度感知目标形成综合优化方向；4.参数更新：沿聚合方向更新参数，步长自适应调节。

章节 05

数学推理对LLM有三大挑战：多步推理链易出错、符号操作要求高、精确性容错低。ESSAM通过SAM的锐度感知机制，让模型学习更稳定的推理策略，对输入微小变化不敏感，提升复杂数学推理的可靠性。

章节 06

ESSAM代表的零阶优化有重要实用意义：1.降低硬件门槛，消费级GPU可微调大模型；2.隐私保护场景（如联邦学习部分设置）可行；3.黑箱优化（API访问模型）唯一选择。

章节 07

ESSAM局限：样本效率低（需更多前向传播）、高维参数空间方差大影响收敛、理论保证不如梯度方法成熟。未来方向：高效扰动采样策略、结合LoRA等参数高效微调、探索其他复杂推理任务应用。

章节 08

ESSAM是大模型优化的重要探索方向，在算力紧张背景下，平衡性能与训练成本是AI社区共同挑战。融合ES探索能力与SAM泛化追求，ESSAM为零阶优化在复杂推理任务应用开辟新可能，值得关注。