正文

ContextLens：LLM推理的上下文压缩协议

ContextLens是一个用于LLM推理的上下文压缩协议，通过消除重复token来显著降低API调用成本，同时保持94%以上的语义保真度。支持Anthropic、OpenAI等主流API，只需一行代码即可集成。

LLM上下文压缩token优化AnthropicOpenAIAgent语义压缩成本优化

发布时间 2026/05/23 17:07最近活动 2026/05/23 17:21预计阅读 2 分钟

章节 01

导读 / 主楼：ContextLens：LLM推理的上下文压缩协议

章节 02

原作者与来源

原作者/维护者: Usama Fateh Ali
来源平台: GitHub
原始标题: contextlens
原始链接: https://github.com/Usama1909/contextlens
发布时间: 2026年5月23日

章节 03

问题背景

每次调用Claude或GPT时，用户都在反复发送相同的上下文。重复的消息、重复的代码块、冗余的解释——所有这些都在消耗token。据统计，一个典型的20轮对话中约有70%的内容是冗余的。

这种冗余不仅增加了成本，还降低了效率。对于需要长上下文保持的Agent工作流来说，这个问题尤为严重。

章节 04

解决方案

ContextLens通过三阶段压缩来解决这个问题：

章节 05

1. 精确去重

移除完全相同的重复消息，开销接近0毫秒。这是最基本的压缩层，处理显而易见的冗余。

章节 06

2. 语义分流

使用all-MiniLM-L6-v2模型在本地为每条消息相对于当前查询的相关性打分——零外部API调用。这一步识别出哪些历史消息对当前请求真正重要。

章节 07

3. Agent感知压缩

按消息类型（目标、错误、工具调用、推理）分类，并应用类型特定的规则。不同类型的消息在压缩时保留的优先级不同。

章节 08

Anthropic API

import anthropic
import ctxlens as cx

client = cx.wrap(anthropic.Anthropic(api_key="..."))

# 完成。每次API调用现在自动压缩。
response = client.messages.create(
    model="claude-opus-4-5",
    max_tokens=1000,
    messages=[{"role": "user", "content": "..."}]
)

# 查看节省了多少
print(client.savings)
# {
#   'calls': 1,
#   'tokens_saved_estimate': 847,
#   'redundancy_pct': 73.2,
#   'cost_saved_gbp': 0.0025
# }