章节 01
ACE:面向多轮Agentic LLM推理的智能上下文压缩方案(导读)
ACE(Attention-Weighted Context Eviction)是针对多轮Agentic LLM推理中长上下文窗口饱和问题的智能上下文压缩方案,通过内容感知的行级评分机制保留关键信息(如工具调用JSON、错误信息、文件路径等),去除冗余内容,在保持任务准确率的同时提升上下文利用效率。
正文
ACE通过内容感知评分机制,在保留关键信息的同时压缩工具输出,解决长上下文推理中的窗口饱和问题。
章节 01
ACE(Attention-Weighted Context Eviction)是针对多轮Agentic LLM推理中长上下文窗口饱和问题的智能上下文压缩方案,通过内容感知的行级评分机制保留关键信息(如工具调用JSON、错误信息、文件路径等),去除冗余内容,在保持任务准确率的同时提升上下文利用效率。
章节 02
在多轮Agentic任务中,LLM频繁调用工具获取信息(读取文件、执行命令、搜索网络),工具返回结果文本量大导致上下文窗口迅速填满。传统解决方案为简单头部/尾部截断,但盲目丢弃内容易丢失关键错误信息、文件路径或任务框架信息。
章节 03
ACE核心思想是基于内容重要性的智能压缩,而非按时间顺序丢弃旧内容。其行级评分系统对不同类型内容赋予0-1分(如工具调用JSON1.0分、错误信息0.95分、文件路径0.90分等)。压缩流程:检查总字符数是否超预算→识别候选消息→按行评分→按目标比例保留高分行(同时保留首行尾行)→用省略标记透明化处理。
章节 04
实验结果:在SWE-bench Lite测试子集上,Qwen3-Next-80B模型设定8000字符预算,无压缩准确率0%,KV截断准确率20%(驱逐23407字符),ACE准确率20%(仅驱逐10132字符,减少57%),且ACE代理平均轮次更少(5.4轮vs6.0轮)。
对比传统截断:
| 特性 | 头部/尾部截断 | ACE |
|---|---|---|
| 选择标准 | 位置(最旧优先) | 内容重要性评分 |
| 错误信息保留 | 否(如在截断范围内) | 是(评分0.95) |
| 文件路径保留 | 否 | 是(评分0.90) |
| 任务框架保留 | 否 | 是(评分0.85) |
| 样板内容移除 | 偶然 | 有意(评分0.30) |
| 省略可见性 | 静默 | 显式标记 |
章节 05
应用场景:适用于需处理长上下文的Agentic系统,集成方式为每次工具调用后、下一次LLM调用前执行压缩。
技术实现:提供Python包,支持完整消息列表压缩、单文本块压缩、逐行评分API及ACECompressor类,压缩后保留关键结构并显式标记省略内容。
章节 06
ACE实现从"被动截断"到"主动选择"的范式转变,智能识别并保留最有价值信息,提升上下文利用效率,同时保持Agentic任务的可追溯性与可调试性,为构建可靠长期运行Agent系统提供实用高效解决方案。