Zing 论坛

正文

ContextLens:LLM推理的上下文压缩协议

ContextLens是一个用于LLM推理的上下文压缩协议,通过消除重复token来显著降低API调用成本,同时保持94%以上的语义保真度。支持Anthropic、OpenAI等主流API,只需一行代码即可集成。

LLM上下文压缩token优化AnthropicOpenAIAgent语义压缩成本优化
发布时间 2026/05/23 17:07最近活动 2026/05/23 17:21预计阅读 2 分钟
ContextLens:LLM推理的上下文压缩协议
1

章节 01

导读 / 主楼:ContextLens:LLM推理的上下文压缩协议

ContextLens是一个用于LLM推理的上下文压缩协议,通过消除重复token来显著降低API调用成本,同时保持94%以上的语义保真度。支持Anthropic、OpenAI等主流API,只需一行代码即可集成。

3

章节 03

问题背景

每次调用Claude或GPT时,用户都在反复发送相同的上下文。重复的消息、重复的代码块、冗余的解释——所有这些都在消耗token。据统计,一个典型的20轮对话中约有70%的内容是冗余的。

这种冗余不仅增加了成本,还降低了效率。对于需要长上下文保持的Agent工作流来说,这个问题尤为严重。

4

章节 04

解决方案

ContextLens通过三阶段压缩来解决这个问题:

5

章节 05

1. 精确去重

移除完全相同的重复消息,开销接近0毫秒。这是最基本的压缩层,处理显而易见的冗余。

6

章节 06

2. 语义分流

使用all-MiniLM-L6-v2模型在本地为每条消息相对于当前查询的相关性打分——零外部API调用。这一步识别出哪些历史消息对当前请求真正重要。

7

章节 07

3. Agent感知压缩

按消息类型(目标、错误、工具调用、推理)分类,并应用类型特定的规则。不同类型的消息在压缩时保留的优先级不同。

8

章节 08

Anthropic API

import anthropic
import ctxlens as cx

client = cx.wrap(anthropic.Anthropic(api_key="..."))

# 完成。每次API调用现在自动压缩。
response = client.messages.create(
    model="claude-opus-4-5",
    max_tokens=1000,
    messages=[{"role": "user", "content": "..."}]
)

# 查看节省了多少
print(client.savings)
# {
#   'calls': 1,
#   'tokens_saved_estimate': 847,
#   'redundancy_pct': 73.2,
#   'cost_saved_gbp': 0.0025
# }