正文

LLM Token成本优化实战：用tiktoken实现智能降本

本文介绍如何通过tiktoken库精确计算和优化LLM token使用量，展示从冗长文本到精简提示的成本节省策略，帮助开发者在实际项目中实现token成本的有效控制。

LLMtoken优化tiktoken成本优化提示工程OpenAIAPI成本token计数

发布时间 2026/06/13 02:13最近活动 2026/06/13 02:21预计阅读 3 分钟

章节 01

导读 / 主楼：LLM Token成本优化实战：用tiktoken实现智能降本

章节 02

原作者与来源

原作者/维护者：fatihsoysalcom
来源平台：github
原始标题：llm-token-cost-optimization-example
原始链接：https://github.com/fatihsoysalcom/llm-token-cost-optimization-example
来源发布时间/更新时间：2026-06-12T18:13:11Z

章节 03

引言：为什么Token成本优化如此重要

随着大型语言模型（LLM）在各类应用中的广泛部署，token成本已成为企业级AI项目不可忽视的运营成本因素。OpenAI、Anthropic等主流模型提供商按token计费的模式，使得每一次API调用都直接影响项目预算。对于高并发的生产环境，未经优化的提示词可能导致token用量呈指数级增长，造成不必要的开支。

Token成本优化的核心在于理解token的计算机制，并在保持提示效果的前提下，尽可能减少输入token的数量。这不仅是技术问题，更是成本工程的重要组成部分。

章节 04

Tiktoken：OpenAI的Token计数利器

Tiktoken是OpenAI官方发布的Python库，专门用于计算文本对应的token数量。它支持多种编码器，包括cl100k_base（用于GPT-4和GPT-3.5-turbo）、p50k_base等，能够精确模拟OpenAI模型的token切分逻辑。

使用tiktoken的优势在于：

精确预测：在调用API之前就能准确计算token数量，避免超出上下文限制
成本预估：根据token单价预先估算API调用成本
优化验证：对比优化前后的token数量，量化节省效果

章节 05

1. 提示词精简与结构化

冗长的自然语言描述往往包含大量冗余信息。通过提炼关键指令、使用结构化格式（如JSON、YAML），可以显著减少token数量。例如，将"请帮我分析这段文本的情感倾向，并给出正面、负面或中性的判断"精简为"情感分析：[文本] → 正面/负面/中性"，token数量可减少60%以上。

章节 06

2. 上下文压缩与摘要

对于需要长上下文输入的场景（如文档问答、代码审查），可以先使用轻量级模型对长文本进行摘要，再将摘要送入主模型处理。这种"压缩-推理"的两阶段策略，能够在保持信息密度的同时大幅降低token消耗。

章节 07

3. 动态Token预算分配

在多轮对话系统中，可以实施动态token管理策略：优先保留关键上下文，丢弃次要历史记录。通过设置token上限阈值，在接近限制时自动触发上下文压缩机制。

章节 08

实战代码示例

以下展示了如何使用tiktoken进行token计数和成本对比：

import tiktoken

# 初始化编码器
encoding = tiktoken.encoding_for_model("gpt-4")

# 原始冗长文本
verbose_prompt = """
请详细分析以下客户反馈的情感倾向。
客户反馈："产品质量很好，但是配送速度太慢了，希望改进。"
请从以下几个方面进行分析：
1. 整体情感倾向（正面、负面、中性）
2. 具体提到的优点
3. 具体提到的缺点
4. 改进建议
"""

# 优化后的精简提示
concise_prompt = "情感分析：'产品质量很好，但是配送速度太慢了' → 倾向：[ ] 优点：[ ] 缺点：[ ]"

# 计算token数量
verbose_tokens = len(encoding.encode(verbose_prompt))
concise_tokens = len(encoding.encode(concise_prompt))

print(f"原始提示token数: {verbose_tokens}")
print(f"优化后token数: {concise_tokens}")
print(f"节省比例: {(verbose_tokens - concise_tokens) / verbose_tokens * 100:.1f}%")