Zing 论坛

正文

Orthrus:通过双视图扩散解码实现无损加速的大语言模型推理框架

Orthrus 是一个创新的双架构框架,通过结合自回归模型的精确生成质量与扩散模型的高速并行解码能力,在保持完全无损输出的前提下实现高达 7.8 倍的推理加速。

LLM推理加速扩散模型自回归模型双视图架构无损生成参数高效微调Qwen3并行解码
发布时间 2026/05/16 03:12最近活动 2026/05/16 03:19预计阅读 2 分钟
Orthrus:通过双视图扩散解码实现无损加速的大语言模型推理框架
1

章节 01

Orthrus框架核心导读

Orthrus是创新的双视图扩散解码大语言模型推理框架,结合自回归模型的精确生成质量与扩散模型的高速并行解码能力,在保持完全无损输出的前提下实现最高7.8倍推理加速。其基于Qwen3系列模型构建,采用参数高效微调策略,内存开销可忽略,为LLM推理效率优化提供新路径。

2

章节 02

LLM推理的瓶颈与挑战

当前主流大语言模型(LLM)多采用自回归架构,生成文本需逐个token顺序解码,虽保证质量与连贯性,但无法充分利用现代GPU并行计算能力,存在效率瓶颈。扩散模型在图像领域展现并行生成优势,但应用于语言模型时,如何在保持生成质量的同时实现真正的无损加速,是学术界和工业界的重大挑战。

3

章节 03

双视图架构的核心创新

Orthrus提出双视图扩散解码方案,在单一模型内同时维护两种工作模式:自回归视图确保生成质量精确性,扩散视图负责高速并行token预测。两视图共享同一套键值缓存(KV Cache),内存开销仅O(1)级别,几乎可忽略,资源受限环境也能发挥出色加速效果。

4

章节 04

参数高效微调与实验结果

Orthrus采用参数高效微调策略,仅需对基础模型约16%的参数进行微调,基础LLM核心权重完全冻结,保证原始能力完整性并降低训练部署门槛。基于Qwen3的1.7B、4B、8B版本模型,在保持与原始模型预测分布一致的前提下,分别实现平均4.25倍、5.20倍、5.36倍推理加速,特定任务加速比达7.8倍。

5

章节 05

关键特性与优势

  1. 严格无损生成:通过模型内共识机制确保输出与原始基础模型预测分布完全一致;2. 零冗余内存开销:双视图共享高保真KV缓存,无额外显存占用;3. 生产就绪部署:正在开发vLLM和SGLang等主流推理框架的原生集成支持,便于接入现有LLM服务基础设施。
6

章节 06

应用场景与实践意义

适用于实时交互式AI系统(智能客服、代码补全、实时翻译)以缩短用户等待时间;企业级文本任务(内容创作平台、自动报告生成、数据摘要系统)可在不牺牲质量的前提下降低计算成本;边缘设备部署因高效内存特性,使单卡甚至消费级GPU运行高性能LLM成为可能。

7

章节 07

学术贡献与未来展望

Orthrus研究成果已发表于arXiv(论文编号:2605.12825),题为《Orthrus: Memory-Efficient Parallel Token Generation via Dual-View Diffusion》,证明自回归与扩散范式可优势互补。未来完成vLLM和SGLang集成后,有望成为下一代高效LLM服务的重要基础设施,值得开发者和研究者关注尝试。