Zing 论坛

正文

InferCost:让本地AI推理成本一目了然的Kubernetes原生方案

InferCost是一个Kubernetes原生平台,通过整合GPU硬件摊销、实时电力消耗和token级归因,计算本地AI推理的真实成本,并与云服务价格进行诚实对比。

KubernetesAI推理成本优化GPUFinOps成本归因本地部署LLM成本管理
发布时间 2026/04/21 01:45最近活动 2026/04/21 01:51预计阅读 4 分钟
InferCost:让本地AI推理成本一目了然的Kubernetes原生方案
1

章节 01

导读 / 主楼:InferCost:让本地AI推理成本一目了然的Kubernetes原生方案

InferCost是一个Kubernetes原生平台,通过整合GPU硬件摊销、实时电力消耗和token级归因,计算本地AI推理的真实成本,并与云服务价格进行诚实对比。

2

章节 02

问题背景:成本工具的两难困境

当前AI推理生态系统中的成本工具分为两类,但都存在明显局限:

基础设施成本工具(如Kubecost、OpenCost)擅长追踪GPU使用时长和资源分配,但它们不理解token、模型或推理工作负载的特性。它们知道你的GPU运行了多久,却不知道这些GPU生成了多少token,处理的是什么模型。

AI可观测性平台(如Langfuse、Helicone)能够追踪token和请求量,但在处理本地部署时,它们将基础设施成本视为零($0)。这种处理方式对于云API调用尚可,但对于本地部署的模型来说,显然严重低估了真实成本。

企业真正需要回答的问题是:"在我们的自有硬件上运行推理,真实成本究竟是多少?与云API相比如何?"

InferCost正是 sits at the intersection,将硬件经济学与token级归因相结合,为本地推理计算真实的cost-per-token。

3

章节 03

核心设计理念:简单即力量

InferCost的设计哲学是极简主义:一个控制器Pod,无需数据库,无需托管UI,直接接入你已有的基础设施。

其成本计算公式简洁而全面:

token_cost = (GPU_amortization + electricity × power_draw × PUE) / tokens_per_hour

这个公式考虑了:

  • GPU硬件的购买价格和摊销周期
  • 实时GPU功耗(通过NVIDIA DCGM获取)
  • 电费和数据中心PUE(能源使用效率)因子
  • 实际的token生成速率

安装过程同样简单:一条Helm命令加上一个描述硬件的CostProfile,5分钟内即可获得首批成本数据。

4

章节 04

真实的Cost-Per-Token计算

不同于简单的估算,InferCost从三个维度计算真实成本:

GPU摊销成本:基于硬件购买价格、摊销年限(通常3年)和维护费用计算每小时的硬件成本。

电力成本:通过DCGM Exporter获取实时GPU功耗,结合电费单价和PUE因子计算能源成本。

Token归因:从llama.cpp、vLLM等推理引擎的Prometheus指标中提取token计数,将基础设施成本精确分摊到每个token。

5

章节 05

云服务诚实对比

InferCost内置了OpenAI、Anthropic、Google等主流云服务商的9个模型的官方定价(最后验证日期:2026-03-21)。它会告诉你:如果同样的token量使用云服务需要多少钱,以及本地部署能节省多少(或反而更贵)。

这种对比是诚实的——包括云服务更便宜的情况。这种透明度帮助企业做出数据驱动的决策,而非盲目追求本地部署。

6

章节 06

团队级成本归因

通过Kubernetes命名空间自动实现成本拆分,无需额外配置。每个团队、每个项目都能清晰看到自己的AI推理支出。结合可选的LiteLLM PostgreSQL集成,甚至可以实现按用户归因。

7

章节 07

多输出通道

InferCost的计算结果通过多种方式输出:

  • Prometheus指标:12个可抓取指标,兼容任何监控工具(Grafana、Datadog、New Relic等)
  • REST API:程序化访问成本数据,支持自定义仪表盘和集成
  • CLI工具infercost statusinfercost compare命令提供终端级成本分析
  • Grafana仪表盘:预置JSON格式仪表盘,可通过sidecar自动配置
  • UsageReport CRD:kubectl原生访问,支持GitOps工作流
8

章节 08

架构设计:轻量级但完整

InferCost以一个控制器Pod运行,读取你已有的数据源,计算成本,并写入多个输出通道。

数据源(输入)

来源 提供数据
DCGM Exporter GPU实时功耗(瓦特)
llama.cpp / vLLM 每个推理Pod的token计数
CostProfile CRD 硬件购买价格、摊销、电费、PUE
LiteLLM PostgreSQL 按用户的token归因(可选)

控制器流水线

GPU功耗采集器 → Token计数器 → 成本计算器 → 归因引擎 → 云对比器 → 报告生成器

输出

输出 用途
Prometheus指标 任何监控工具
REST API 自定义仪表盘、机器人、集成
Grafana仪表盘 项目预置JSON
UsageReport CRD kubectl访问、GitOps