正文

Maru：基于CXL共享内存的高性能LLM推理KV缓存引擎

Maru是一款基于CXL共享内存技术构建的高性能KV缓存存储引擎，专为多实例LLM推理场景设计。它通过零拷贝共享机制彻底改变了传统KV缓存的网络传输瓶颈，让多个LLM实例直接读写共享内存，大幅提升硬件利用率和推理效率。

CXLKV CacheLLM InferenceZero-CopyShared MemoryAI InfrastructureMaruLMCache

发布时间 2026/04/10 17:11最近活动 2026/04/10 17:19预计阅读 9 分钟

章节 01

导读 / 主楼：Maru：基于CXL共享内存的高性能LLM推理KV缓存引擎

章节 02

背景

引言：LLM推理的内存瓶颈\n\n随着大语言模型规模不断扩大，上下文长度持续增长，KV缓存（Key-Value Cache）的存储和共享成为制约推理效率的关键瓶颈。传统方案中，当多个LLM实例需要共享KV缓存时，必须通过CPU或GPU进行数据传输——逐字节地复制数据到网络，再由接收方重新加载。这种"传输式共享"在模型变大、上下文变长时，已成为结构性瓶颈。\n\nMaru项目从根本上颠覆了这种假设：与其移动数据，不如直接共享内存。\n\n## Maru的核心创新：零拷贝共享\n\nMaru是一款基于CXL（Compute Express Link）共享内存技术构建的高性能KV缓存存储引擎。它的核心理念极其简洁——不要让数据流动，让实例直接访问共享内存。\n\n在传统架构中，KV缓存共享意味着：\n- 发送方将数据序列化并复制到网络缓冲区\n- 数据通过网络传输\n- 接收方分配临时缓冲区\n- 数据被反序列化并加载到GPU内存\n\nMaru的架构则完全不同：\n- 所有LLM实例直接读写同一块CXL共享内存区域\n- 只有轻量级元数据（几十字节）在组件间传输\n- 无需缓冲区分配、无需数据复制、无需序列化\n\n## 架构设计：控制平面与数据平面分离\n\nMaru采用清晰的双层架构设计：\n\n控制平面（虚线连接）：负责KV元数据操作和内存区域分配。Maru控制平面管理着资源分配策略、访问权限和生命周期管理。\n\n数据平面（实线连接）：实现直接的CXL共享内存访问。这是真正的零拷贝路径——无论控制平面如何配置，数据路径始终保持一致，直接通过内存映射访问共享数据。\n\n系统由三个核心组件构成：\n\n1. Resource Manager（资源管理器）：管理CXL内存池的分配和回收，采用C++实现以确保极致性能\n2. Metadata Server（元数据服务器）：管理KV缓存的元数据索引，使用Python实现便于灵活扩展\n3. MaruHandler（客户端库）：嵌入到LLM实例中的客户端库，提供简洁的Python API\n\n## 技术优势：为什么零拷贝如此重要\n\nMaru的设计带来了多方面的性能提升：\n\n随上下文长度和并发度线性扩展：传统网络共享方案在上下文增长或并发消费者增加时性能急剧下降。Maru从不广播KV负载——扩展性仅受限于共享内存带宽，而非网络传输能力。\n\n更高的硬件利用率：无需为每个实例复制KV缓存，所有实例从共享CXL池中读取。减少重复意味着更多可用内存和更高的有效缓存容量。\n\n更低的系统能耗：消除大量数据传输意味着降低NIC和CPU功耗。更短的数据路径也减少了每个请求的GPU空闲时间。\n\n简化的部署模式：单节点部署时所有组件运行在同一机器上；多节点部署时通过配置网络地址即可扩展，无需复杂的集群管理。\n\n## 使用示例：简洁的Python API\n\nMaru提供了直观易用的Python接口：\n\npython\nfrom maru import MaruConfig, MaruHandler\n\nconfig = MaruConfig(\n server_url=\"tcp://localhost:5555\",\n pool_size=1024 * 1024 * 100, # 100MB\n)\n\nwith MaruHandler(config) as handler:\n data = b\"A\" * (1024 * 1024) # 1MB KV chunk\n \n # 1. 在CXL共享内存中分配页面\n handle = handler.alloc(size=len(data))\n \n # 2. 直接写入CXL内存（内存映射，无中间缓冲区）\n handle.buf[:] = data\n \n # 3. 注册键——仅发送元数据（键→区域、偏移量）\n handler.store(key=42, handle=handle)\n \n # 检索：返回指向CXL内存的memoryview\n result = handler.retrieve(key=42)\n\n\n这种设计让开发者可以用几行代码实现高性能的KV缓存共享，而无需关心底层的CXL内存管理细节。\n\n## 生态系统集成：LMCache后端支持\n\nMaru不仅是独立项目，还可作为LMCache的原生存储后端。通过配置`maru_path`和`maru_pool_size`字段，LMCache可以直接使用Maru进行P2P KV缓存共享和分离式预填充（disaggregated prefill）。\n\n这种集成意味着：\n- 现有的vLLM/LMCache用户可以无缝切换到Maru后端\n- 无需修改应用代码即可享受CXL共享内存的性能提升\n- 支持生产环境中的热升级和动态配置\n\n## 系统要求与部署\n\nMaru对硬件和软件环境有明确要求：\n\n- 操作系统：Ubuntu 24.04 LTS或更高版本\n- Python：3.12或更高版本\n- 编译工具：gcc 13.3.0+，cmake 3.28.3+\n- CXL设备：/dev/dax*设备或CXL仿真环境\n\n部署流程简洁明了：安装依赖、克隆仓库、运行安装脚本、启动资源管理器和元数据服务器即可。生产环境支持systemd守护进程模式，开发环境支持直接运行调试。\n\n## 性能监控与运维\n\n项目提供了`pool_monitor`工具，以top风格的TUI界面实时监控内存池使用情况，支持CSV导出用于后续分析。这种可观测性设计对于生产环境的容量规划和故障排查至关重要。\n\n## 结语：内存语义网络的新篇章\n\nMaru代表了AI基础设施向内存语义网络演进的重要一步。CXL技术正在重新定义数据中心架构，而Maru展示了如何将这种技术转化为实际的AI工作负载优化。\n\n对于运行大规模LLM推理服务的团队而言，Maru提供了一个值得评估的方案——它可能在不增加硬件成本的情况下，显著提升推理吞吐量和资源利用率。随着CXL硬件的普及，这种零拷贝共享模式有望成为LLM推理的标准实践。

章节 03

补充观点 1

引言：LLM推理的内存瓶颈\n\n随着大语言模型规模不断扩大，上下文长度持续增长，KV缓存（Key-Value Cache）的存储和共享成为制约推理效率的关键瓶颈。传统方案中，当多个LLM实例需要共享KV缓存时，必须通过CPU或GPU进行数据传输——逐字节地复制数据到网络，再由接收方重新加载。这种"传输式共享"在模型变大、上下文变长时，已成为结构性瓶颈。\n\nMaru项目从根本上颠覆了这种假设：与其移动数据，不如直接共享内存。\n\nMaru的核心创新：零拷贝共享\n\nMaru是一款基于CXL（Compute Express Link）共享内存技术构建的高性能KV缓存存储引擎。它的核心理念极其简洁——不要让数据流动，让实例直接访问共享内存。\n\n在传统架构中，KV缓存共享意味着：\n- 发送方将数据序列化并复制到网络缓冲区\n- 数据通过网络传输\n- 接收方分配临时缓冲区\n- 数据被反序列化并加载到GPU内存\n\nMaru的架构则完全不同：\n- 所有LLM实例直接读写同一块CXL共享内存区域\n- 只有轻量级元数据（几十字节）在组件间传输\n- 无需缓冲区分配、无需数据复制、无需序列化\n\n架构设计：控制平面与数据平面分离\n\nMaru采用清晰的双层架构设计：\n\n控制平面（虚线连接）：负责KV元数据操作和内存区域分配。Maru控制平面管理着资源分配策略、访问权限和生命周期管理。\n\n数据平面（实线连接）：实现直接的CXL共享内存访问。这是真正的零拷贝路径——无论控制平面如何配置，数据路径始终保持一致，直接通过内存映射访问共享数据。\n\n系统由三个核心组件构成：\n\n1. Resource Manager（资源管理器）：管理CXL内存池的分配和回收，采用C++实现以确保极致性能\n2. Metadata Server（元数据服务器）：管理KV缓存的元数据索引，使用Python实现便于灵活扩展\n3. MaruHandler（客户端库）：嵌入到LLM实例中的客户端库，提供简洁的Python API\n\n技术优势：为什么零拷贝如此重要\n\nMaru的设计带来了多方面的性能提升：\n\n随上下文长度和并发度线性扩展：传统网络共享方案在上下文增长或并发消费者增加时性能急剧下降。Maru从不广播KV负载——扩展性仅受限于共享内存带宽，而非网络传输能力。\n\n更高的硬件利用率：无需为每个实例复制KV缓存，所有实例从共享CXL池中读取。减少重复意味着更多可用内存和更高的有效缓存容量。\n\n更低的系统能耗：消除大量数据传输意味着降低NIC和CPU功耗。更短的数据路径也减少了每个请求的GPU空闲时间。\n\n简化的部署模式：单节点部署时所有组件运行在同一机器上；多节点部署时通过配置网络地址即可扩展，无需复杂的集群管理。\n\n使用示例：简洁的Python API\n\nMaru提供了直观易用的Python接口：\n\npython\nfrom maru import MaruConfig, MaruHandler\n\nconfig = MaruConfig(\n server_url=\"tcp://localhost:5555\",\n pool_size=1024 * 1024 * 100, 100MB\n)\n\nwith MaruHandler(config) as handler:\n data = b\"A\" * (1024 * 1024) 1MB KV chunk\n \n 1. 在CXL共享内存中分配页面\n handle = handler.alloc(size=len(data))\n \n 2. 直接写入CXL内存（内存映射，无中间缓冲区）\n handle.buf[:] = data\n \n 3. 注册键——仅发送元数据（键→区域、偏移量）\n handler.store(key=42, handle=handle)\n \n 检索：返回指向CXL内存的memoryview\n result = handler.retrieve(key=42)\n\n\n这种设计让开发者可以用几行代码实现高性能的KV缓存共享，而无需关心底层的CXL内存管理细节。\n\n生态系统集成：LMCache后端支持\n\nMaru不仅是独立项目，还可作为LMCache的原生存储后端。通过配置maru_path和maru_pool_size字段，LMCache可以直接使用Maru进行P2P KV缓存共享和分离式预填充（disaggregated prefill）。\n\n这种集成意味着：\n- 现有的vLLM/LMCache用户可以无缝切换到Maru后端\n- 无需修改应用代码即可享受CXL共享内存的性能提升\n- 支持生产环境中的热升级和动态配置\n\n系统要求与部署\n\nMaru对硬件和软件环境有明确要求：\n\n- 操作系统：Ubuntu 24.04 LTS或更高版本\n- Python：3.12或更高版本\n- 编译工具：gcc 13.3.0+，cmake 3.28.3+\n- CXL设备：/dev/dax*设备或CXL仿真环境\n\n部署流程简洁明了：安装依赖、克隆仓库、运行安装脚本、启动资源管理器和元数据服务器即可。生产环境支持systemd守护进程模式，开发环境支持直接运行调试。\n\n性能监控与运维\n\n项目提供了pool_monitor工具，以top风格的TUI界面实时监控内存池使用情况，支持CSV导出用于后续分析。这种可观测性设计对于生产环境的容量规划和故障排查至关重要。\n\n结语：内存语义网络的新篇章\n\nMaru代表了AI基础设施向内存语义网络演进的重要一步。CXL技术正在重新定义数据中心架构，而Maru展示了如何将这种技术转化为实际的AI工作负载优化。\n\n对于运行大规模LLM推理服务的团队而言，Maru提供了一个值得评估的方案——它可能在不增加硬件成本的情况下，显著提升推理吞吐量和资源利用率。随着CXL硬件的普及，这种零拷贝共享模式有望成为LLM推理的标准实践。

Maru：基于CXL共享内存的高性能LLM推理KV缓存引擎

导读 / 主楼：Maru：基于CXL共享内存的高性能LLM推理KV缓存引擎

背景

补充观点 1

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统

LLM-assisted-analysis：用大模型检测智能合约逻辑漏洞的新思路

Lattice：AI代理工作流的运维平台，实现跨会话协调与自动化