# TokenStack：异构HBM-PIM架构破解LLM推理的KV缓存瓶颈

> TokenStack利用HBM4的逻辑基底将存储栈分层为高密度容量层和PIM计算层，通过拓扑感知的KV放置和负载感知的淘汰策略，实现1.62倍吞吐量提升和30-47%能耗降低。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-07T03:47:18.000Z
- 最近活动: 2026-05-08T03:50:55.406Z
- 热度: 135.9
- 关键词: TokenStack, HBM-PIM, KV缓存, 内存内计算, 异构架构, LLM推理, HBM4, 注意力计算
- 页面链接: https://www.zingnex.cn/forum/thread/tokenstack-hbm-pimllmkv
- Canonical: https://www.zingnex.cn/forum/thread/tokenstack-hbm-pimllmkv
- Markdown 来源: ingested_event

---

## KV缓存：LLM服务的隐形瓶颈\n\n大型语言模型推理正面临一个日益严峻的挑战：KV缓存已成为系统性能的主要瓶颈。在解码阶段，每个新生成的token都需要重新读取所有先前token的键值状态，这使得注意力计算变成了一项**带宽密集型和容量密集型**的内存任务。随着模型规模和服务负载的增长，这一问题愈发突出。\n\nHBM-PIM(高带宽内存-内存内处理)技术为解决这一困境提供了希望——通过将计算能力集成到内存芯片中，可以将注意力计算"拉近"到数据所在的位置，减少数据搬运开销。然而，现有的HBM-PIM堆栈组织方式仍然存在资源浪费的问题。\n\n## 现有方案的困境\n\n### 统一PIM堆栈的问题\n\n在实践中，并非所有的KV块都能从近内存计算中受益。只有"热"的(频繁访问的)KV块真正需要PIM计算能力，而权重、激活和"冷"KV主要需要高密度存储和GPU可见带宽。\n\n如果采用**统一的HBM-PIM堆栈设计**，所有存储层都要为PIM逻辑支付成本——无论它们是否真的需要计算能力。这导致了不必要的面积和功耗开销。\n\n### 专用PIM设计的局限\n\n另一种方案是采用类似AttAcc的**专用PIM设计**，将PIM层与常规存储层分离。这种设计确实恢复了部分存储容量，但代价是留给GPU端工作的HBM带宽减少了。对于需要频繁访问权重的计算密集型层，带宽的缩减可能成为新的瓶颈。\n\n## TokenStack：垂直异构架构\n\nTokenStack提出了一种全新的解决方案——**垂直异构HBM-PIM架构**，充分利用HBM4的逻辑基底芯片(logic-die substrate)能力。\n\n### 核心设计：分层存储\n\nTokenStack将每个HBM堆栈划分为两类不同的层：\n\n**高密度容量层**：这些层专注于提供最大的存储密度和GPU可见带宽，用于存储权重、激活和冷KV数据。它们不需要昂贵的PIM逻辑，因此可以以更低的成本提供更多的容量。\n\n**PIM计算层**：这些层集成了PIM计算能力，专门用于处理热KV数据的注意力计算。它们可能牺牲部分容量，但提供了近内存计算的低延迟和高能效优势。\n\n### 逻辑基底控制器\n\nTokenStack的关键创新在于利用HBM4的逻辑基底芯片作为**堆栈本地控制点**：\n\n**跨层DMA管理**：基底控制器协调数据在不同层之间的直接内存访问，无需主机CPU介入，减少了控制开销。\n\n**分层地址转换**：自动处理异构层之间的地址映射，对上层软件透明。\n\n**注意力计算协调**：管理注意力计算所需的数据收集(gather)和广播(broadcast)操作，优化数据流。\n\n**内联量化**：在数据迁移过程中自动执行量化/反量化，减少数据传输量，同时保持计算精度。\n\n## 运行时优化：智能数据管理\n\n在硬件架构之上，TokenStack实现了一套智能的运行时系统：\n\n### 拓扑感知的KV放置\n\n系统根据KV块的访问模式和注意力计算的拓扑特征，智能决定每个KV块应该存放在哪一层：\n\n- **热KV块**被优先放置在PIM计算层，确保注意力计算能够充分利用近内存优势\n- **温KV块**根据预测的未来访问概率，在容量层和PIM层之间动态迁移\n- **冷KV块**被压缩并存储在高密度容量层，最大化存储利用率\n\n### 负载感知的淘汰策略\n\n当PIM层的空间不足时，系统需要决定哪些KV块应该被淘汰。TokenStack的淘汰策略考虑了：\n\n- **访问频率**：最近最少使用的块优先被淘汰\n- **注意力跨度**：在注意力计算中跨度较大的块(影响更多后续token)被优先保留\n- **预测未来访问**：基于请求模式预测哪些块在未来最可能被访问\n\n### 有界复制\n\n为了避免频繁的数据迁移，TokenStack允许热KV块在PIM层和容量层之间保持**有界复制**。系统控制复制的数量和生命周期，在访问效率和存储开销之间取得平衡。\n\n## 实验验证：显著的性能提升\n\n研究者在生产级 traces 上对四个主流模型进行了全面评估，结果令人鼓舞：\n\n### 吞吐量提升\n\nTokenStack相比AttAcc实现了：\n- **几何平均token吞吐量提升1.62倍**：这意味着在相同时间内可以服务更多的请求\n- **SLO合规服务能力提升1.70倍**：更多的请求能够在延迟约束内完成\n\n### 能效改善\n\nTokenStack将**每token能耗降低了30-47%**。这一改进对于大规模LLM服务具有重大意义——不仅降低了运营成本，也减少了环境影响。\n\n### 多QPS场景表现\n\n在高并发(QPS)场景下，TokenStack的优势更加明显。随着请求负载增加，KV缓存的带宽压力急剧上升，而异构架构能够更好地分散这一压力，保持稳定的性能表现。\n\n## 技术深度：为什么选择HBM4？\n\nTokenStack的设计深度依赖于HBM4的新特性，理解这一点有助于把握其技术价值：\n\n### HBM4的逻辑基底\n\n与前几代HBM不同，HBM4在存储堆栈底部集成了一个**逻辑基底芯片**。这个芯片传统上只用于基本的接口功能，但HBM4为其提供了更强的计算能力和灵活性。TokenStack充分利用这一特性，将基底芯片转变为智能控制器。\n\n### 垂直堆栈的优势\n\nHBM的垂直堆栈结构(多层DRAM芯片堆叠)天然适合异构设计——不同层可以实现不同的功能，而基底芯片作为中心枢纽协调各层。这种垂直集成的方式比平面扩展更具能效优势。\n\n### 带宽与容量的权衡\n\nHBM4提供了更高的带宽密度，但存储容量的增长相对缓慢。TokenStack的异构设计正是针对这一现实——通过智能地分配稀缺资源(带宽和容量)，最大化整体系统效率。\n\n## 实际部署考量\n\n对于考虑采用TokenStack的数据中心和服务提供商，以下因素值得注意：\n\n**硬件依赖**：TokenStack需要HBM4支持，这意味着可能需要升级现有的GPU基础设施。对于新建的数据中心，这提供了采用最新技术的机会；对于现有设施，需要权衡升级成本与性能收益。\n\n**软件兼容性**：TokenStack的运行时系统需要与现有的推理框架(如vLLM、TensorRT-LLM)集成。虽然设计目标是对上层透明，但实际集成工作仍需投入。\n\n**工作负载适应性**：TokenStack的收益在KV缓存密集的工作负载(如长上下文对话、文档生成)中最为显著。如果服务主要处理短查询，收益可能相对有限。\n\n**可扩展性**：TokenStack的架构支持多GPU扩展，但跨GPU的KV缓存管理引入了额外的复杂性，需要仔细设计数据分布策略。\n\n## 局限与未来方向\n\nTokenStack虽然取得了显著进展，但仍有改进空间：\n\n**静态分层**：当前的层功能划分是固定的，未来可以探索动态重配置，根据工作负载特征实时调整各层角色。\n\n**预测精度**：KV访问预测的准确性直接影响TokenStack的效率，引入更先进的机器学习预测模型可能进一步提升性能。\n\n**与稀疏注意力的协同**：稀疏注意力技术(如滑动窗口、局部注意力)可以减少KV缓存需求，如何将TokenStack与这些技术协同优化值得探索。\n\n**多模态扩展**：随着多模态模型(视觉-语言模型)的兴起，如何处理图像token的KV缓存管理是一个新的研究方向。\n\n## 行业影响\n\nTokenStack代表了内存架构设计的一个重要方向——**针对特定工作负载特征进行深度优化**。随着AI工作负载在数据中心占比的不断提升，这种专用化设计将成为常态。\n\n对于硬件厂商，TokenStack展示了HBM-PIM技术的巨大潜力，可能推动更多针对AI优化的内存产品创新。对于云服务提供商，TokenStack提供了降低LLM服务成本的新途径。对于终端用户，这意味着更便宜、更快速的AI服务。\n\n## 结语\n\nTokenStack通过创新的异构HBM-PIM架构，为LLM推理的KV缓存瓶颈提供了一个优雅的解决方案。它不仅在吞吐量和能效方面取得了显著提升，更重要的是展示了如何通过软硬件协同设计来应对AI工作负载的独特挑战。随着HBM4等新一代内存技术的普及，我们可以期待看到更多类似TokenStack的创新，推动LLM服务走向更高的效率和更低的成本。
