正文

InferCost：让本地AI推理成本一目了然的Kubernetes原生方案

InferCost是一个Kubernetes原生平台，通过整合GPU硬件摊销、实时电力消耗和token级归因，计算本地AI推理的真实成本，并与云服务价格进行诚实对比。

KubernetesAI推理成本优化GPUFinOps成本归因本地部署LLM成本管理

发布时间 2026/04/21 01:45最近活动 2026/04/21 01:51预计阅读 4 分钟

章节 01

导读 / 主楼：InferCost：让本地AI推理成本一目了然的Kubernetes原生方案

InferCost是一个Kubernetes原生平台，通过整合GPU硬件摊销、实时电力消耗和token级归因，计算本地AI推理的真实成本，并与云服务价格进行诚实对比。

章节 02

当前AI推理生态系统中的成本工具分为两类，但都存在明显局限：

基础设施成本工具（如Kubecost、OpenCost）擅长追踪GPU使用时长和资源分配，但它们不理解token、模型或推理工作负载的特性。它们知道你的GPU运行了多久，却不知道这些GPU生成了多少token，处理的是什么模型。

AI可观测性平台（如Langfuse、Helicone）能够追踪token和请求量，但在处理本地部署时，它们将基础设施成本视为零（$0）。这种处理方式对于云API调用尚可，但对于本地部署的模型来说，显然严重低估了真实成本。

企业真正需要回答的问题是："在我们的自有硬件上运行推理，真实成本究竟是多少？与云API相比如何？"

InferCost正是 sits at the intersection，将硬件经济学与token级归因相结合，为本地推理计算真实的cost-per-token。

章节 03

InferCost的设计哲学是极简主义：一个控制器Pod，无需数据库，无需托管UI，直接接入你已有的基础设施。

其成本计算公式简洁而全面：

token_cost = (GPU_amortization + electricity × power_draw × PUE) / tokens_per_hour

这个公式考虑了：

安装过程同样简单：一条Helm命令加上一个描述硬件的CostProfile，5分钟内即可获得首批成本数据。

章节 04

不同于简单的估算，InferCost从三个维度计算真实成本：

GPU摊销成本：基于硬件购买价格、摊销年限（通常3年）和维护费用计算每小时的硬件成本。

电力成本：通过DCGM Exporter获取实时GPU功耗，结合电费单价和PUE因子计算能源成本。

Token归因：从llama.cpp、vLLM等推理引擎的Prometheus指标中提取token计数，将基础设施成本精确分摊到每个token。

章节 05

InferCost内置了OpenAI、Anthropic、Google等主流云服务商的9个模型的官方定价（最后验证日期：2026-03-21）。它会告诉你：如果同样的token量使用云服务需要多少钱，以及本地部署能节省多少（或反而更贵）。

这种对比是诚实的——包括云服务更便宜的情况。这种透明度帮助企业做出数据驱动的决策，而非盲目追求本地部署。

章节 06

通过Kubernetes命名空间自动实现成本拆分，无需额外配置。每个团队、每个项目都能清晰看到自己的AI推理支出。结合可选的LiteLLM PostgreSQL集成，甚至可以实现按用户归因。

章节 07

InferCost的计算结果通过多种方式输出：

章节 08

InferCost以一个控制器Pod运行，读取你已有的数据源，计算成本，并写入多个输出通道。

数据源（输入）：

控制器流水线：

GPU功耗采集器 → Token计数器 → 成本计算器 → 归因引擎 → 云对比器 → 报告生成器

输出：