章节 01
导读 / 主楼:ContextLens:LLM推理的上下文压缩协议
ContextLens是一个用于LLM推理的上下文压缩协议,通过消除重复token来显著降低API调用成本,同时保持94%以上的语义保真度。支持Anthropic、OpenAI等主流API,只需一行代码即可集成。
正文
ContextLens是一个用于LLM推理的上下文压缩协议,通过消除重复token来显著降低API调用成本,同时保持94%以上的语义保真度。支持Anthropic、OpenAI等主流API,只需一行代码即可集成。
章节 01
ContextLens是一个用于LLM推理的上下文压缩协议,通过消除重复token来显著降低API调用成本,同时保持94%以上的语义保真度。支持Anthropic、OpenAI等主流API,只需一行代码即可集成。
章节 02
章节 03
每次调用Claude或GPT时,用户都在反复发送相同的上下文。重复的消息、重复的代码块、冗余的解释——所有这些都在消耗token。据统计,一个典型的20轮对话中约有70%的内容是冗余的。
这种冗余不仅增加了成本,还降低了效率。对于需要长上下文保持的Agent工作流来说,这个问题尤为严重。
章节 04
ContextLens通过三阶段压缩来解决这个问题:
章节 05
移除完全相同的重复消息,开销接近0毫秒。这是最基本的压缩层,处理显而易见的冗余。
章节 06
使用all-MiniLM-L6-v2模型在本地为每条消息相对于当前查询的相关性打分——零外部API调用。这一步识别出哪些历史消息对当前请求真正重要。
章节 07
按消息类型(目标、错误、工具调用、推理)分类,并应用类型特定的规则。不同类型的消息在压缩时保留的优先级不同。
章节 08
import anthropic
import ctxlens as cx
client = cx.wrap(anthropic.Anthropic(api_key="..."))
# 完成。每次API调用现在自动压缩。
response = client.messages.create(
model="claude-opus-4-5",
max_tokens=1000,
messages=[{"role": "user", "content": "..."}]
)
# 查看节省了多少
print(client.savings)
# {
# 'calls': 1,
# 'tokens_saved_estimate': 847,
# 'redundancy_pct': 73.2,
# 'cost_saved_gbp': 0.0025
# }