Zing 论坛

正文

disagg:数据中心大模型推理的拆解与异构性探索工具

一个用于探索数据中心LLM推理中拆解策略与异构芯片配置的开源工具,支持预填充/解码分离、注意力/专家分离以及推测解码等多种拆解轴,帮助开发者找到吞吐率、交互性与成本的最优帕累托前沿。

LLM推理数据中心异构计算拆解策略预填充解码分离MoE推测解码性能优化成本优化GPU
发布时间 2026/06/07 12:41最近活动 2026/06/07 12:51预计阅读 2 分钟
disagg:数据中心大模型推理的拆解与异构性探索工具
1

章节 01

【导读】disagg:数据中心LLM推理的拆解与异构性探索工具

本文介绍开源工具disagg,旨在探索数据中心LLM推理中的拆解策略与异构芯片配置,支持预填充/解码分离、注意力/专家分离及推测解码等多种拆解轴,帮助开发者找到吞吐率、交互性与成本的最优帕累托前沿。项目由epsteinj维护,来源为GitHub(链接:https://github.com/epsteinj/disagg),发布时间2026-06-07T04:41:15Z。

2

章节 02

项目背景与动机

随着LLM在数据中心广泛部署,推理效率成为成本与用户体验的关键瓶颈。传统同构部署模式难以充分利用不同硬件特性,也难以平衡吞吐率、交互延迟和每token成本。disagg项目fork自transformer_math工具,针对其"未建模异构性"的限制进行深度扩展,目标是让开发者探索不同芯片组合、拆解策略下的帕累托前沿。

3

章节 03

核心功能与拆解轴

disagg支持三种拆解轴:1.预填充/解码分离:预填充(计算密集)与解码(访存密集)分配到不同芯片池,优化KV缓存传输;2.注意力/专家分离:针对MoE模型,将注意力层(需高带宽内存)与专家层(需大容量内存)部署到不同硬件;3.推测解码:分离草稿模型与目标模型,内置接受率模型估算2-3倍加速比,评估硬件投入价值。

4

章节 04

技术架构与用户界面

技术架构:核心引擎来自transformer_math,包含芯片性能目录、模型预设、FLOPs计算、屋顶线模型、并行策略规划器;增强点包括持续有效算力约定(用实际MFU/带宽效率)、MoE低批次修复(解决过预测问题)、双层内存模型(支持快速/冷内存分层)。用户界面:自包含Web界面,支持拆解轴选择、异构芯片池选择、帕累托前沿可视化、异构vs同构对比,通过npm run ui启动本地预览。

5

章节 05

验证与使用场景

验证:项目含test/anchors.mjs(复现基准测试点)、audit/AUDIT.md(审计记录)、npm test(目录验证等),确保模型正确性。使用场景:硬件选型决策(模拟芯片组合表现)、容量规划(反推硬件规模)、架构研究(探索新兴拆解策略收益)、成本优化(找到性能约束下最低成本或预算内最优性能)。

6

章节 06

总结与未来规划

总结:disagg为LLM推理优化提供严谨实用的分析框架,帮助开发者超越"堆GPU"思维,找到性能-成本-延迟的帕累托最优。项目状态:已完成引擎fork与审计、持续有效算力约定、MoE修复、双层内存模型、三类拆解轴、Web UI等里程碑。未来计划:校准d-Matrix模型、支持嵌入/编码器拆解轴、每芯片MFU校准。注意:芯片目录含厂商专有数据,公开前需清理敏感行。