# Agentic AI 基础设施全景：72篇顶会论文深度综述

> 这份由社区维护的综述系统梳理了2023-2026年间72篇顶级会议论文，全面覆盖 Agentic LLM 工作负载的基础设施优化技术。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-29T04:16:27.000Z
- 最近活动: 2026-03-29T04:23:54.749Z
- 热度: 157.9
- 关键词: Agentic AI, LLM基础设施, KV Cache, Prefill-Decode分离, 系统综述, 顶会论文, 推理优化
- 页面链接: https://www.zingnex.cn/forum/thread/agentic-ai-72
- Canonical: https://www.zingnex.cn/forum/thread/agentic-ai-72
- Markdown 来源: ingested_event

---

# Agentic AI 基础设施全景：72篇顶会论文深度综述

## 引言：Agentic AI 的崛起与挑战

2023年以来，以大语言模型（LLM）为核心的智能体（Agent）系统迅速成为 AI 领域的焦点。从 AutoGPT 到 Claude 的 Computer Use，从 Devin 到各类编码助手，Agentic AI 正在重新定义人机交互的边界。

然而，Agentic 工作负载与传统 LLM 推理有着本质区别：多轮对话、工具调用、长上下文保持、动态任务规划等特性，对底层基础设施提出了全新挑战。如何高效支持这些复杂的工作流程，成为了系统研究的前沿课题。

## 综述概览：系统性的知识整理

这份由 hungchun0201 维护的开源综述项目，系统梳理了2023至2026年间发表在 OSDI、SOSP、ISCA、FAST、MLSys、NeurIPS、ICML、EuroSys、ASPLOS、NSDI、ATC、SIGCOMM 等顶级会议上的 **72篇相关论文**，为研究者和工程师提供了一份宝贵的技术地图。

### 交互式浏览体验

项目提供了中英文双语的[交互式网页界面](https://hungchun0201.github.io/agentic-ai-survey/)，用户可以按技术领域快速检索感兴趣的论文，极大地降低了文献调研的门槛。

## 七大技术领域深度解析

### S1：工作负载特征分析（5篇论文）

理解问题是解决问题的前提。该领域的研究聚焦于 Agentic 流量的特征剖析，包括：

- Agentic 工作负载的流量模式分析
- CPU 瓶颈识别与优化
- 系统可持续性评估

这些基础性的分析工作为后续的系统优化提供了数据支撑。

### S2：Prefill-Decode 分离（13篇论文）

这是当前最热门的优化方向之一。传统 LLM 推理中，Prefill（计算阶段）和 Decode（生成阶段）共享同一资源，导致资源利用不均衡。分离架构的研究包括：

- **DistServe**（OSDI'24）：针对吞吐量的 PD 分离
- **Splitwise**（ISCA'24）：阶段分离的调度策略
- **Mooncake**（FAST'25，最佳论文）：以 KV Cache 为中心的分离架构
- **NVIDIA Dynamo**（GTC'25）：智能路由 + KV 管理器
- **TraCT**：基于 CXL 共享内存的 KV Cache 方案

### S3：KV Cache 管理（18篇论文）

KV Cache 是 LLM 推理的内存瓶颈所在，也是 Agentic 场景下需要长期维护的关键状态。该领域的关键工作包括：

- **vLLM**（SOSP'23）：PagedAttention 开创性工作
- **SGLang**（NeurIPS'24）：RadixAttention 前缀缓存
- **CacheBlend**（EuroSys'25）：非前缀 KV Cache 复用
- **EPIC**（ICML'25）：位置无关缓存机制
- **DeepSeek MLA**：多头潜在注意力，大幅降低 KV 存储

### S4：KV Cache 生命周期管理（4篇论文）

Agentic 场景下，工具调用会导致推理暂停，如何在此期间管理 KV Cache 成为关键问题：

- **InferCept**（ICML'24）：工具调用期间的 KV Cache 保持
- **Concur**：基于 AIMD 的 Agent 准入控制
- **ThunderAgent**：程序感知的暂停/恢复机制
- **SideQuest**：模型驱动的 KV 淘汰策略

### S5：调度与路由（11篇论文）

多 Agent 协作、复杂工作流的调度是 Agentic 系统的核心挑战：

- **Autellix**：程序级 DAG 调度
- **Cortex**：阶段隔离的资源池化
- **Preble**（ICLR'25）：集群级 KV 感知调度
- **AI Metropolis**（MLSys'25）：乱序多 Agent 执行
- **Sherlock**：可靠的 Agentic 工作流执行

### S6：基于学习的缓存策略（10篇论文）

将强化学习引入缓存管理，实现自适应优化：

- **LeCaR**：基于遗憾最小化的 LRU/LFU 加权
- **RLCache**：多任务强化学习缓存管理
- **KV Policy**：基于 RL 的逐头 KV 淘汰
- **Semantic Cache Bandit**：组合老虎机缓存决策

### S7：相邻优化技术（11篇论文）

涵盖多种创新性的优化方向：

- **Sarathi-Serve**（OSDI'24）：分块 Prefill
- **Speculative Tool Calling**：推测性工具调用加速
- **ServerlessLLM**（OSDI'24）：快速冷启动
- **FlashInfer**（MLSys'25，最佳论文）：可定制注意力引擎
- **Helix**（ASPLOS'25）：异构 GPU 最大流调度

## 技术趋势与洞察

通过这份综述，我们可以观察到几个明显的技术趋势：

### 1. 从统一架构到分离架构
Prefill-Decode 分离已成为共识，未来可能进一步细分为更多专用阶段。

### 2. KV Cache 成为核心优化对象
在 Agentic 场景下，KV Cache 的管理复杂度显著提升，相关研究将持续活跃。

### 3. 调度智能化
从静态启发式到基于学习的动态策略，调度决策正在变得更加智能。

### 4. 多 Agent 协同优化
单个 Agent 的优化已趋于成熟，多 Agent 协作的系统性优化将成为下一个热点。

## 实用价值与使用建议

对于不同角色的读者，这份综述提供了差异化的价值：

- **系统研究者**：快速定位前沿课题，了解技术演进脉络
- **算法工程师**：理解底层优化原理，指导模型设计决策
- **基础设施团队**：获取系统架构设计的参考案例
- **技术决策者**：把握技术趋势，制定合理的研发路线图

## 结语

Agentic AI 正在从实验室走向生产环境，基础设施的成熟度将直接决定这一技术浪潮的落地速度。这份综述项目不仅是对现有研究的系统整理，更为未来的技术创新指明了方向。

无论你是刚刚入门的初学者，还是深耕多年的专家，这份涵盖72篇顶会论文的知识宝库都值得收藏和研读。
