Zing 论坛

正文

Orthrus:通过双视图扩散实现无损并行生成的LLM推理加速框架

Orthrus是一种创新的双架构框架,将自回归大语言模型的精确生成保真度与扩散模型的高速并行生成能力相结合,实现了高达7.8倍的推理加速,同时保持严格无损的输出质量。

LLM推理加速扩散模型并行生成Qwen3推测解码KV缓存优化MLXApple Silicon
发布时间 2026/06/06 20:14最近活动 2026/06/06 20:49预计阅读 2 分钟
Orthrus:通过双视图扩散实现无损并行生成的LLM推理加速框架
1

章节 01

Orthrus:双视图扩散实现LLM无损并行推理加速框架导读

本文介绍Orthrus框架,它结合自回归LLM的精确生成与扩散模型的并行能力,实现高达7.8倍推理加速且保持严格无损输出质量。核心是双视图扩散架构,基于Qwen3骨干网络,支持MLX框架与Apple Silicon,零冗余内存开销。

2

章节 02

LLM推理的现状与挑战

自回归LLM生成质量高但存在顺序瓶颈,每个token需等待前一个生成,长文本场景更明显。扩散语言模型尝试并行解码,但易出现条件漂移和精度下降。如何兼顾自回归质量与并行速度是关键挑战。

3

章节 03

Orthrus双视图扩散架构设计

Orthrus采用双视图扩散架构:

  • 自回归视图:保持顺序解码确保质量
  • 扩散视图:支持并行token生成突破瓶颈 两者共享KV缓存,避免传统推测解码的冗余内存。通过模型内共识机制,确保并行输出与原模型预测分布完全一致,实现严格无损。
4

章节 04

性能实测数据与对比分析

基于Qwen3的Orthrus模型加速效果显著:

模型 基础模型 平均加速比
Orthrus-Qwen3-1.7B Qwen3-1.7B 4.25×
Orthrus-Qwen3-4B Qwen3-4.0B 5.20×
Orthrus-Qwen3-8B Qwen3-8.0B 5.36×
特定任务最高达7.8倍加速。
与推测解码(如EAGLE-3、DFlash)相比,长上下文(40K)下仍保持稳定吞吐量;与扩散模型(如Fast-dLLM-v2)相比,MATH-500基准测试中加速约6倍且无损准确率。
5

章节 05

内存效率与参数优化特性

Orthrus双视图共享同一KV缓存,内存开销为O(1)级别,零冗余。仅需微调模型总参数的16%即可注入并行能力,基础LLM保持冻结,降低适配成本。

6

章节 06

平台支持与模型获取

官方在HuggingFace发布三个Qwen3模型版本:

  • chiennv/Orthrus-Qwen3-1.7B
  • chiennv/Orthrus-Qwen3-4B
  • chiennv/Orthrus-Qwen3-8B 原生支持MLX框架在Apple Silicon上推理,兼容mlx==0.31.2和mlx-lm==0.31.3版本。
7

章节 07

技术意义与应用前景

Orthrus证明并行生成与无损质量可兼得,为LLM推理优化领域带来重要进展。实际应用价值包括:降低推理成本、改善用户体验(减少延迟)、扩展边缘设备应用场景。

8

章节 08

总结

Orthrus通过双视图扩散架构打破自回归顺序瓶颈,实现数倍加速且严格无损。零冗余内存开销与参数高效训练特性,使其成为生产环境部署LLM的优质推理优化方案。