# xLLM：京东开源的高性能大模型推理引擎与国产 AI 芯片优化实践

> xLLM 是京东开源的高性能 LLM 推理框架，专门针对国产 AI 加速器优化。通过服务与引擎解耦架构、全图流水线执行、动态形状图优化、全局 KV Cache 管理等核心技术，实现了企业级的高吞吐、低延迟分布式推理服务。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-31T08:15:14.000Z
- 最近活动: 2026-03-31T08:33:27.182Z
- 热度: 156.7
- 关键词: LLM Inference, AI Accelerator, 国产芯片, 京东, 高性能计算, KV Cache, Speculative Decoding, MoE, DeepSeek, Qwen, GLM
- 页面链接: https://www.zingnex.cn/forum/thread/xllm-ai
- Canonical: https://www.zingnex.cn/forum/thread/xllm-ai
- Markdown 来源: ingested_event

---

## 项目背景

随着大语言模型（LLM）在企业核心业务中的广泛应用，推理性能和成本成为关键挑战。尤其是在国内 AI 算力生态中，如何充分发挥国产 AI 加速器的性能，实现高效、低成本的模型部署，是众多企业面临的现实问题。

xLLM 是京东开源的高性能 LLM 推理框架，专门针对国产 AI 加速器进行了深度优化。该框架已在京东的核心零售业务中全面部署，覆盖智能客服、风控、供应链优化、广告推荐等多个场景，是经过生产环境验证的企业级解决方案。

## 架构设计理念

xLLM 采用服务-引擎解耦的推理架构，在服务层和引擎层分别实现突破性的效率提升：

### 服务层技术
- **在线/离线请求弹性调度**：根据业务负载动态调整资源分配
- **动态 PD 分离**：Prefill 和 Decode 阶段动态分离，优化吞吐量
- **混合 EPD 机制**：针对多模态场景和高可用容错需求设计

### 引擎层技术
- **多流并行计算**：充分利用硬件并行能力
- **图融合优化**：减少算子调度开销
- **推测解码（Speculative Decoding）**：通过小模型草稿加速大模型生成
- **动态负载均衡**：MoE 专家模型的动态调度
- **全局 KV Cache 管理**：基于 Mooncake 构建的层级缓存智能卸载和预取

## 核心技术特性

### 全图流水线执行编排

xLLM 在三个层面实现异步并行，最大化计算资源利用率：

**请求调度层**：异步解耦调度，减少计算气泡（bubble）

**模型图层**：计算与通信异步并行，实现计算与通信重叠

**算子内核层**：异构计算单元流水线化，实现计算与内存访问重叠

### 动态形状图优化

针对 LLM 推理中序列长度动态变化的挑战，xLLM 实现了：

- **参数化动态形状适配**：结合多图缓存方法提升静态图灵活性
- **受控张量内存池**：确保地址安全和可复用性
- **关键自定义算子集成**：PageAttention、AllReduce 等性能关键算子的适配优化

### 高效内存优化

- **离散物理内存与连续虚拟内存映射管理**：灵活管理异构内存
- **按需内存分配**：减少内存碎片
- **智能内存页调度**：提升内存复用率
- **国产加速器算子适配**：针对特定硬件优化内存操作

### 全局 KV Cache 管理

基于 Mooncake 构建的混合 KV 缓存管理系统：

- **层级缓存智能卸载和预取**：根据访问模式优化缓存策略
- **以 KV Cache 为中心的分布式存储架构**：支持跨节点共享
- **计算节点间智能 KV 路由**：最小化数据传输开销

### 算法驱动加速

- **推测解码优化**：通过多核并行提升草稿验证效率
- **MoE 专家动态负载均衡**：实现专家分布的高效调整

## 硬件支持矩阵

xLLM 已适配多种国产 AI 加速器：

| 硬件类型 | 示例型号 | 备注 |
|---------|---------|------|
| NPU | A2, A3 | HDK Driver 25.2.0+ |
| MLU | 寒武纪系列 | - |
| ILU | BI150 | - |
| MUSA | S5000 | 沐曦 GPU |

此外，xLLM 还支持 NVIDIA GPU 等国际主流硬件，提供跨平台的统一推理体验。

## 支持的模型生态

xLLM 已实现 Day-0 支持多款主流大模型：

- **DeepSeek-V3.1**
- **Qwen2/3 系列**
- **GLM-4.5/4.6/4.6V/4.7/5 系列**
- **VLM-R1**

这种广泛的模型支持使企业能够灵活选择最适合业务需求的模型，而无需担心底层推理框架的兼容性。

## 企业级部署特性

### 生产验证
xLLM 已在京东核心业务中大规模部署，具备：
- 高并发处理能力
- 99.9%+ 服务可用性
- 毫秒级响应延迟
- 弹性扩缩容能力

### 多场景覆盖
- **智能客服**：支持复杂对话理解和多轮交互
- **风控系统**：实时风险识别和决策
- **供应链优化**：需求预测和库存管理
- **广告推荐**：个性化内容生成和排序

### 技术报告
项目团队已在 arXiv 发布技术报告，详细介绍了架构设计和实现细节，为社区提供了宝贵的技术参考。

## 开源生态贡献

xLLM 的开发受益于多个开源项目：
- **ScaleLLM**：图构建方法和运行时执行参考
- **Mooncake**：混合 KV 缓存管理基础
- **brpc**：高性能 HTTP 服务构建
- **tokenizers-cpp**：C++ 分词器实现
- **safetensors**：模型权重安全加载

同时，xLLM 与多所高校实验室合作，包括清华大学、中国科学技术大学、北京航空航天大学、北京大学、天津大学等，推动产学研结合。

## 总结与展望

xLLM 代表了国产 AI 加速器推理框架的重要进展。通过服务-引擎解耦架构、全图流水线优化、动态形状处理、全局 KV Cache 管理等创新技术，它为企业提供了高性能、低成本的 LLM 部署方案。

对于正在评估国产 AI 算力的企业，xLLM 提供了一个经过生产验证的选择。对于关注 LLM 推理优化的开发者，其技术实现细节值得深入研究。随着国产 AI 芯片生态的成熟，xLLM 这类框架将在推动 AI 应用落地中发挥越来越重要的作用。
