正文

HSR：为剪枝后的多模态大模型重建安全防线

ACL 2025 录用研究，提出分层安全重对齐方法，在几乎不增加计算开销的前提下，为剪枝后的视觉-语言模型恢复安全能力。

模型剪枝安全对齐视觉语言模型ACL 2025模型压缩AI安全

发布时间 2026/05/21 10:41最近活动 2026/05/21 10:54预计阅读 2 分钟

章节 01

【主楼】HSR：为剪枝后的多模态大模型重建安全防线

ACL 2025录用研究，提出分层安全重对齐（HSR）方法，在几乎不增加计算开销的前提下，为剪枝后的视觉-语言模型恢复安全能力。该方法解决模型压缩（如剪枝）导致的安全对齐能力削弱问题，无需昂贵的重新安全微调。

章节 02

大模型压缩技术（如剪枝、量化）是部署多模态模型的关键手段，但压缩操作常削弱模型安全对齐能力——模型更小更快却易产生有害输出。传统解决方案需重新进行昂贵的安全微调，与压缩初衷相悖。

章节 03

HSR（Hierarchical Safety Realignment）的核心洞察：模型剪枝主要影响参数层面分布，安全对齐依赖的语义表示层次结构仍保留，只需在关键层级精准干预即可恢复安全能力。

章节 04

在多个视觉-语言模型测试中，HSR表现显著：

章节 05

HSR为边缘设备（如移动、嵌入式系统）部署安全多模态模型提供可行路径，让开发者享受压缩红利同时不牺牲安全对齐。此外，该方法启发思考：压缩与安全并非必然矛盾，通过理解模型层次化表示可找到效率与安全的平衡点。

章节 06

HSR是模型压缩与安全对齐交叉领域的重要进展，证明轻量级干预可显著恢复安全能力，为模型轻量化技术提供安全保障。未来工作可扩展至其他压缩范式（如量化、蒸馏）及更广泛模态组合。