章节 01
EdgeRazor框架导读:边缘设备大语言模型轻量化的高效方案
南京大学团队开源的EdgeRazor框架通过混合精度量化感知蒸馏技术,实现大语言模型在边缘设备上的高效部署,支持1.58-bit到4-bit多种量化精度,在Qwen3-0.6B模型上实现最高7.03倍压缩比,有效平衡极致压缩与模型能力。
正文
南京大学团队开源的EdgeRazor框架通过混合精度量化感知蒸馏技术,实现了大语言模型在边缘设备上的高效部署,支持1.58-bit到4-bit多种量化精度,在Qwen3-0.6B模型上实现了最高7.03倍压缩比。
章节 01
南京大学团队开源的EdgeRazor框架通过混合精度量化感知蒸馏技术,实现大语言模型在边缘设备上的高效部署,支持1.58-bit到4-bit多种量化精度,在Qwen3-0.6B模型上实现最高7.03倍压缩比,有效平衡极致压缩与模型能力。
章节 02
近年来大语言模型在多领域展现强大能力,但参数规模动辄数十亿甚至上百亿,难以在移动设备、边缘节点等资源受限环境运行。传统模型压缩方法(剪枝、量化、蒸馏)各自独立,开发者需拼凑工具;低比特量化常伴随显著性能损失,如何平衡压缩与能力是学界和工业界焦点。
章节 03
EdgeRazor是南京大学团队开发的开源轻量化框架,专为边缘AI场景设计。其核心理念是将模型压缩技术无缝集成到全精度训练流程,最小化代码修改即可实现高效轻量化。区别于先量化再微调的两阶段流程,EdgeRazor采用量化感知蒸馏(QAD),训练中同时考虑量化噪声和知识迁移,让低比特学生模型继承教师模型能力。
章节 04
EdgeRazor支持权重、激活值、KV缓存独立量化,提供矩阵级混合精度机制(如2.79-bit:50%权重4-bit+50%1.58-bit;1.88-bit:12.5%4-bit+87.5%1.58-bit),适配不同层参数的量化敏感度。
支持YAML、JSON、Python字典格式,声明式配置量化策略、蒸馏方法等,降低学习成本与复现难度。
章节 05
EdgeRazor在Qwen3-0.6B模型上的实验结果:
| 配置 | 平均得分 | 压缩比 |
|---|---|---|
| 4-bit | 47.80 | 3.94× |
| 2.79-bit | 44.10 | 5.05× |
| 1.88-bit | 41.76 | 6.40× |
| 1.58-bit | 39.81 | 7.03× |
4-bit配置得分(47.80)超全精度基线(47.35);相同比特宽度下,EdgeRazor在3-bit/2-bit区间得分大幅领先传统方法,证明混合精度策略有效性。
章节 06
EdgeRazor降低边缘部署门槛:
章节 07
团队计划支持轻量化ViT-S/16、ResNet-18图像分类模型,以及多模态模型Qwen2.5-Omni-7B的压缩。
章节 08
EdgeRazor是大模型边缘部署的重要进展,通过量化与蒸馏结合及混合精度策略,在极致压缩下保持模型能力。开源(MIT许可证)与社区维护利于落地,将在模型民主化进程中发挥重要作用,为资源受限设备运行大模型提供解决方案。