章节 01
导读 / 主楼:InferCost:让本地AI推理成本一目了然的Kubernetes原生方案
InferCost是一个Kubernetes原生平台,通过整合GPU硬件摊销、实时电力消耗和token级归因,计算本地AI推理的真实成本,并与云服务价格进行诚实对比。
正文
InferCost是一个Kubernetes原生平台,通过整合GPU硬件摊销、实时电力消耗和token级归因,计算本地AI推理的真实成本,并与云服务价格进行诚实对比。
章节 01
InferCost是一个Kubernetes原生平台,通过整合GPU硬件摊销、实时电力消耗和token级归因,计算本地AI推理的真实成本,并与云服务价格进行诚实对比。
章节 02
当前AI推理生态系统中的成本工具分为两类,但都存在明显局限:
基础设施成本工具(如Kubecost、OpenCost)擅长追踪GPU使用时长和资源分配,但它们不理解token、模型或推理工作负载的特性。它们知道你的GPU运行了多久,却不知道这些GPU生成了多少token,处理的是什么模型。
AI可观测性平台(如Langfuse、Helicone)能够追踪token和请求量,但在处理本地部署时,它们将基础设施成本视为零($0)。这种处理方式对于云API调用尚可,但对于本地部署的模型来说,显然严重低估了真实成本。
企业真正需要回答的问题是:"在我们的自有硬件上运行推理,真实成本究竟是多少?与云API相比如何?"
InferCost正是 sits at the intersection,将硬件经济学与token级归因相结合,为本地推理计算真实的cost-per-token。
章节 03
InferCost的设计哲学是极简主义:一个控制器Pod,无需数据库,无需托管UI,直接接入你已有的基础设施。
其成本计算公式简洁而全面:
token_cost = (GPU_amortization + electricity × power_draw × PUE) / tokens_per_hour
这个公式考虑了:
安装过程同样简单:一条Helm命令加上一个描述硬件的CostProfile,5分钟内即可获得首批成本数据。
章节 04
不同于简单的估算,InferCost从三个维度计算真实成本:
GPU摊销成本:基于硬件购买价格、摊销年限(通常3年)和维护费用计算每小时的硬件成本。
电力成本:通过DCGM Exporter获取实时GPU功耗,结合电费单价和PUE因子计算能源成本。
Token归因:从llama.cpp、vLLM等推理引擎的Prometheus指标中提取token计数,将基础设施成本精确分摊到每个token。
章节 05
InferCost内置了OpenAI、Anthropic、Google等主流云服务商的9个模型的官方定价(最后验证日期:2026-03-21)。它会告诉你:如果同样的token量使用云服务需要多少钱,以及本地部署能节省多少(或反而更贵)。
这种对比是诚实的——包括云服务更便宜的情况。这种透明度帮助企业做出数据驱动的决策,而非盲目追求本地部署。
章节 06
通过Kubernetes命名空间自动实现成本拆分,无需额外配置。每个团队、每个项目都能清晰看到自己的AI推理支出。结合可选的LiteLLM PostgreSQL集成,甚至可以实现按用户归因。
章节 07
InferCost的计算结果通过多种方式输出:
infercost status和infercost compare命令提供终端级成本分析章节 08
InferCost以一个控制器Pod运行,读取你已有的数据源,计算成本,并写入多个输出通道。
数据源(输入):
| 来源 | 提供数据 |
|---|---|
| DCGM Exporter | GPU实时功耗(瓦特) |
| llama.cpp / vLLM | 每个推理Pod的token计数 |
| CostProfile CRD | 硬件购买价格、摊销、电费、PUE |
| LiteLLM PostgreSQL | 按用户的token归因(可选) |
控制器流水线:
GPU功耗采集器 → Token计数器 → 成本计算器 → 归因引擎 → 云对比器 → 报告生成器
输出:
| 输出 | 用途 |
|---|---|
| Prometheus指标 | 任何监控工具 |
| REST API | 自定义仪表盘、机器人、集成 |
| Grafana仪表盘 | 项目预置JSON |
| UsageReport CRD | kubectl访问、GitOps |