章节 01
Fairness Pruning:激活引导MLP剪枝缓解LLM偏见的新方法
本文介绍了一种名为Fairness Pruning的创新方法,通过激活引导的MLP宽度剪枝技术,精准识别并移除模型中的偏见神经元,在不显著牺牲模型性能的前提下,有效减少大语言模型(LLMs)中的偏见,为解决LLM公平性-性能权衡问题提供新思路。
正文
本文介绍了一种名为Fairness Pruning的新方法,通过激活引导的MLP宽度剪枝技术,在不显著牺牲模型性能的前提下,有效减少大语言模型中的偏见。
章节 01
本文介绍了一种名为Fairness Pruning的创新方法,通过激活引导的MLP宽度剪枝技术,精准识别并移除模型中的偏见神经元,在不显著牺牲模型性能的前提下,有效减少大语言模型(LLMs)中的偏见,为解决LLM公平性-性能权衡问题提供新思路。
章节 02
LLM的偏见源于训练数据分布不均,易吸收并放大社会刻板印象。现有偏见缓解方法(数据去偏、训练约束、后处理调整)普遍面临“公平性-性能权衡”困境:过度追求公平可能导致模型整体性能显著下降。
章节 03
Fairness Pruning的核心洞察是LLM偏见集中在特定神经元子集。该方法将公平性转化为网络结构优化问题,采用双目标框架:同时考虑神经元的偏见贡献度和结构重要性,优先剪除“高偏见、低结构重要性”的神经元。
章节 04
Fairness Pruning通过激活分析识别偏见神经元:利用OptiPFair工具分析模型处理敏感属性(性别、种族)文本时的激活模式,标记系统性激活差异的神经元。该方法无需额外训练数据或梯度计算,具有解释性且可逐层定位偏见分布。
章节 05
识别偏见神经元后,采用结构化宽度剪枝策略(减少MLP层隐藏单元数量),遵循贪婪策略:优先移除偏见贡献高但结构重要性低的神经元。结构重要性通过神经元对输出的影响度量,偏见贡献通过公平性指标变化评估。
章节 06
该方法已在Llama-3.2(1B/3B参数版本)及Salamandra-2B等主流模型上验证。结果显示:可显著降低公平性基准测试中的偏见指标,同时保持模型整体性能;剪枝后模型的推理速度和内存占用也获得实际收益,适合资源受限环境。
章节 07
实际意义:为AI负责任部署提供实用工具,适用于招聘辅助、信贷评估、内容审核等敏感场景,可快速降低偏见风险。局限性包括:激活分析需针对特定偏见设计测试用例(需先验知识);剪枝不可逆,可能永久丢失相关能力。
章节 08
未来研究方向包括:开发更细粒度的神经元重要性评估、探索剪枝与微调的结合策略、将公平性剪枝扩展到模型的其他组件(如注意力头)。Fairness Pruning代表LLM偏见缓解领域的重要进展,为平衡性能与公平性提供新可能,将助力AI负责任发展。