正文

通过替换MLP块压缩大语言模型：一种替代量化与剪枝的新思路

布拉迪斯拉发夸美纽斯大学的一项研究探索了不依赖传统量化或剪枝技术的大语言模型压缩方法，通过用更小、更高效的替代结构替换Transformer中的MLP块，在保持模型表达能力的同时显著降低内存占用和推理延迟。

大语言模型模型压缩MLP块替换Transformer优化推理加速学位论文

发布时间 2026/05/15 03:24最近活动 2026/05/15 03:28预计阅读 2 分钟

章节 01

【主楼/导读】替换MLP块：大语言模型压缩的新思路

布拉迪斯拉发夸美纽斯大学的一项研究探索了不依赖传统量化或剪枝技术的大语言模型压缩方法。该研究通过用更小、更高效的替代结构替换Transformer中的MLP块，旨在保持模型表达能力的同时显著降低内存占用和推理延迟，为大模型压缩提供了新方向。

章节 02

Transformer架构下，大语言模型参数量已从数亿飙升至数千亿甚至万亿级别，带来巨大内存占用和缓慢推理速度的问题（如GPT-3单精度推理需超350GB显存）。传统压缩技术中，量化可能损失精度（尤其是低比特量化），剪枝易导致不规则稀疏模式难以硬件加速，因此需寻找第三条替代路径。

章节 03

研究发现，标准Transformer架构中MLP块约占总参数量的80%（注意力机制仅占20%），是内存和计算瓶颈的主要来源。核心假设：将每个MLP块视为独立函数，用更小高效的近似结构替换，实现分而治之的定制化压缩，而非一刀切的全局方案。

章节 04

从冻结预训练模型中捕获每个MLP块的输入-输出对作为校准数据；2. 训练更小的网络（如更浅MLP、纯线性层或混合架构）模仿原始MLP功能，最小化输出差异；3. 模块化特性支持并行处理、不同块定制策略，可单独回退表现不佳的替代方案。

章节 05

实验使用多规模Transformer模型为基准，评估指标包括模型大小、推理速度及GLUE基准任务性能。通过调整替代结构复杂度绘制帕累托前沿，帮助实践者在资源约束下选择最优配置；同时发现早期层和后期层对压缩的敏感度存在显著差异。

章节 06

该方法可使LLM在边缘设备（智能手机、物联网）部署成为可能；降低云服务推理成本，转化为经济效益。同时提供新框架：将压缩视为“功能保持的架构搜索”，与神经架构搜索理念契合但专注于压缩而非从头设计。

章节 07

局限性：替代结构训练需额外一次性计算资源；复杂MLP块难用简单结构近似；目前适用于编码器-解码器架构MLP块，其他变体（如稀疏注意力、混合专家模型）适用性待验证。未来方向：探索更复杂替代结构（如小型Transformer块）、混合压缩策略、扩展到视觉Transformer、动态替换机制。