Zing 论坛

正文

ACE:面向多轮Agentic LLM推理的智能上下文压缩方案

ACE通过内容感知评分机制,在保留关键信息的同时压缩工具输出,解决长上下文推理中的窗口饱和问题。

LLM上下文压缩Agentic推理工具调用上下文管理多轮对话
发布时间 2026/05/15 01:14最近活动 2026/05/15 01:21预计阅读 2 分钟
ACE:面向多轮Agentic LLM推理的智能上下文压缩方案
1

章节 01

ACE:面向多轮Agentic LLM推理的智能上下文压缩方案(导读)

ACE(Attention-Weighted Context Eviction)是针对多轮Agentic LLM推理中长上下文窗口饱和问题的智能上下文压缩方案,通过内容感知的行级评分机制保留关键信息(如工具调用JSON、错误信息、文件路径等),去除冗余内容,在保持任务准确率的同时提升上下文利用效率。

2

章节 02

背景:长上下文推理的困境

在多轮Agentic任务中,LLM频繁调用工具获取信息(读取文件、执行命令、搜索网络),工具返回结果文本量大导致上下文窗口迅速填满。传统解决方案为简单头部/尾部截断,但盲目丢弃内容易丢失关键错误信息、文件路径或任务框架信息。

3

章节 03

ACE的核心方法:内容感知评分与压缩流程

ACE核心思想是基于内容重要性的智能压缩,而非按时间顺序丢弃旧内容。其行级评分系统对不同类型内容赋予0-1分(如工具调用JSON1.0分、错误信息0.95分、文件路径0.90分等)。压缩流程:检查总字符数是否超预算→识别候选消息→按行评分→按目标比例保留高分行(同时保留首行尾行)→用省略标记透明化处理。

4

章节 04

实验验证与传统截断对比

实验结果:在SWE-bench Lite测试子集上,Qwen3-Next-80B模型设定8000字符预算,无压缩准确率0%,KV截断准确率20%(驱逐23407字符),ACE准确率20%(仅驱逐10132字符,减少57%),且ACE代理平均轮次更少(5.4轮vs6.0轮)。

对比传统截断

特性 头部/尾部截断 ACE
选择标准 位置(最旧优先) 内容重要性评分
错误信息保留 否(如在截断范围内) 是(评分0.95)
文件路径保留 是(评分0.90)
任务框架保留 是(评分0.85)
样板内容移除 偶然 有意(评分0.30)
省略可见性 静默 显式标记
5

章节 05

ACE的实际应用与技术实现

应用场景:适用于需处理长上下文的Agentic系统,集成方式为每次工具调用后、下一次LLM调用前执行压缩。

技术实现:提供Python包,支持完整消息列表压缩、单文本块压缩、逐行评分API及ACECompressor类,压缩后保留关键结构并显式标记省略内容。

6

章节 06

ACE的价值与范式转变

ACE实现从"被动截断"到"主动选择"的范式转变,智能识别并保留最有价值信息,提升上下文利用效率,同时保持Agentic任务的可追溯性与可调试性,为构建可靠长期运行Agent系统提供实用高效解决方案。