正文

EdgeRazor：端侧大模型轻量化的新范式

南京大学团队开源的EdgeRazor框架，通过混合精度量化感知蒸馏技术，实现了大语言模型在端侧设备的高效部署，支持1.58-bit到4-bit多种量化精度，在保持性能的同时大幅提升压缩率。

EdgeRazor模型量化知识蒸馏端侧AI大语言模型模型压缩边缘计算Qwen3混合精度

发布时间 2026/04/29 14:12最近活动 2026/04/29 14:23预计阅读 3 分钟

章节 01

【导读】EdgeRazor：端侧大模型轻量化的新范式

EdgeRazor：端侧大模型轻量化的新范式

南京大学团队开源的EdgeRazor框架，通过混合精度量化感知蒸馏技术，实现大语言模型在端侧设备的高效部署，支持1.58-bit到4-bit多种量化精度，在保持性能的同时大幅提升压缩率，为端侧AI场景提供完整易用的工程解决方案。

章节 02

背景：端侧AI部署的迫切需求与挑战

背景：端侧AI的迫切需求

随着大语言模型（LLM）能力提升，端侧设备（智能手机、物联网等）部署LLM面临资源受限问题。传统云端推理存在网络延迟、隐私风险和成本压力，直接部署大模型不切实际。模型压缩技术（量化、知识蒸馏）成为连接大模型能力与端侧应用的关键桥梁。

章节 03

EdgeRazor框架概述与混合精度量化

EdgeRazor框架概述

EdgeRazor是面向边缘AI的轻量级开源框架，核心策略为“量化感知蒸馏”（QAD），将量化与蒸馏融合，目标是保持性能前提下压缩模型体积。设计理念“即插即用”，低侵入性集成到现有训练流程。

混合精度量化

支持矩阵级混合精度机制，不同层/矩阵可采用不同精度。支持权重量化（嵌入层、lm_head）、激活值量化、KV缓存量化。提供多种混合精度方案（如2.79-bit、1.88-bit），便于权衡压缩率与性能。

章节 04

多维度知识蒸馏策略

多维度知识蒸馏

EdgeRazor提供三种互补蒸馏方法，可灵活组合：

Logits蒸馏：对齐学生与教师模型输出分布
特征蒸馏：中间层特征对齐
注意力蒸馏：迁移Transformer注意力模式

通过统一配置接口管理，开发者可根据任务选择最优策略。

章节 05

性能表现与实验结果

以Qwen3-0.6B为例，W-A8-KV8配置下：

配置	平均得分	压缩率
原始模型（W16-A16-KV16）	47.35	1×
4-bit EdgeRazor	47.80	3.94×
2.79-bit EdgeRazor	44.10	5.05×
1.88-bit EdgeRazor	41.76	6.40×
1.58-bit EdgeRazor	39.81	7.03×

4-bit配置模型超越原始全精度模型，相同压缩率下性能优于传统方法，2-bit级别仍保持可用准确度。

章节 06

应用场景与生态建设

EdgeRazor团队构建完整生态：

Hugging Face发布预量化模型集合（zhangsq-nju/edgerazor-nbit），含Qwen3-0.6B/1.7B多种精度版本
提供GGUF格式转换支持，兼容llama.cpp，纯CPU可运行
推出EdgeRazor Playground交互式演示平台，基于CPU运行，降低技术门槛

开发者可直接使用优化模型，体验端侧AI技术。

章节 07

技术意义与未来展望

EdgeRazor推动端侧大模型部署技术进步，将复杂技术封装为简洁接口，实现模型压缩落地。

移动开发者：本地运行AI功能，无网络依赖，保护隐私
边缘计算：资源受限环境部署大模型的可行路径
研究者：开源代码与实验数据提供基准

随着端侧AI需求增长，EdgeRazor将成为AI普惠化的关键基础设施。

EdgeRazor：端侧大模型轻量化的新范式

【导读】EdgeRazor：端侧大模型轻量化的新范式

EdgeRazor：端侧大模型轻量化的新范式

背景：端侧AI部署的迫切需求与挑战

背景：端侧AI的迫切需求

EdgeRazor框架概述与混合精度量化

EdgeRazor框架概述

混合精度量化

多维度知识蒸馏策略

多维度知识蒸馏

性能表现与实验结果

性能表现与实验结果

应用场景与生态建设

应用场景与生态建设

技术意义与未来展望

技术意义与未来展望

继续阅读

SignalCut：将AI搜索可见性缺口转化为视频营销活动的智能工具

AWS开源AI搜索引用分析系统：追踪品牌在AI搜索引擎中的曝光度

Next.js 应用的 SEO 与 GEO 一体化优化方案：从搜索引擎到 AI 助手的全面可见性

百原GEO Platform技术白皮书：生成式引擎优化（GEO）的SaaS工程实践