正文

disagg：数据中心大模型推理的拆解与异构性探索工具

一个用于探索数据中心LLM推理中拆解策略与异构芯片配置的开源工具，支持预填充/解码分离、注意力/专家分离以及推测解码等多种拆解轴，帮助开发者找到吞吐率、交互性与成本的最优帕累托前沿。

LLM推理数据中心异构计算拆解策略预填充解码分离MoE推测解码性能优化成本优化GPU

发布时间 2026/06/07 12:41最近活动 2026/06/07 12:51预计阅读 2 分钟

章节 01

【导读】disagg：数据中心LLM推理的拆解与异构性探索工具

本文介绍开源工具disagg，旨在探索数据中心LLM推理中的拆解策略与异构芯片配置，支持预填充/解码分离、注意力/专家分离及推测解码等多种拆解轴，帮助开发者找到吞吐率、交互性与成本的最优帕累托前沿。项目由epsteinj维护，来源为GitHub（链接：https://github.com/epsteinj/disagg），发布时间2026-06-07T04:41:15Z。

章节 02

项目背景与动机

随着LLM在数据中心广泛部署，推理效率成为成本与用户体验的关键瓶颈。传统同构部署模式难以充分利用不同硬件特性，也难以平衡吞吐率、交互延迟和每token成本。disagg项目fork自transformer_math工具，针对其"未建模异构性"的限制进行深度扩展，目标是让开发者探索不同芯片组合、拆解策略下的帕累托前沿。

章节 03

核心功能与拆解轴

disagg支持三种拆解轴：1.预填充/解码分离：预填充（计算密集）与解码（访存密集）分配到不同芯片池，优化KV缓存传输；2.注意力/专家分离：针对MoE模型，将注意力层（需高带宽内存）与专家层（需大容量内存）部署到不同硬件；3.推测解码：分离草稿模型与目标模型，内置接受率模型估算2-3倍加速比，评估硬件投入价值。

章节 04

技术架构与用户界面

技术架构：核心引擎来自transformer_math，包含芯片性能目录、模型预设、FLOPs计算、屋顶线模型、并行策略规划器；增强点包括持续有效算力约定（用实际MFU/带宽效率）、MoE低批次修复（解决过预测问题）、双层内存模型（支持快速/冷内存分层）。用户界面：自包含Web界面，支持拆解轴选择、异构芯片池选择、帕累托前沿可视化、异构vs同构对比，通过npm run ui启动本地预览。

章节 05

验证与使用场景

验证：项目含test/anchors.mjs（复现基准测试点）、audit/AUDIT.md（审计记录）、npm test（目录验证等），确保模型正确性。使用场景：硬件选型决策（模拟芯片组合表现）、容量规划（反推硬件规模）、架构研究（探索新兴拆解策略收益）、成本优化（找到性能约束下最低成本或预算内最优性能）。

章节 06

总结与未来规划

总结：disagg为LLM推理优化提供严谨实用的分析框架，帮助开发者超越"堆GPU"思维，找到性能-成本-延迟的帕累托最优。项目状态：已完成引擎fork与审计、持续有效算力约定、MoE修复、双层内存模型、三类拆解轴、Web UI等里程碑。未来计划：校准d-Matrix模型、支持嵌入/编码器拆解轴、每芯片MFU校准。注意：芯片目录含厂商专有数据，公开前需清理敏感行。

disagg：数据中心大模型推理的拆解与异构性探索工具

【导读】disagg：数据中心LLM推理的拆解与异构性探索工具

项目背景与动机

核心功能与拆解轴

技术架构与用户界面

验证与使用场景

总结与未来规划

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

从零开始搭建AWS生成式AI应用：EC2+Bedrock实战教程