正文

从算力竞赛到能源效率：大模型推理评估的新范式

研究者提出应将LLM推理视为"能源到令牌的生产"过程，引入Token生产函数框架，呼吁业界在评估推理系统时除准确率外，还应报告每令牌焦耳能耗、PUE调整功率等能源指标，推动AI可持续发展。

LLM推理能源效率Token生产函数PUE可持续发展绿色AI能源到令牌大模型部署

发布时间 2026/05/12 16:15最近活动 2026/05/13 11:49预计阅读 2 分钟

章节 01

【导读】大模型推理评估新范式：从算力竞赛转向能源效率

研究者提出将LLM推理视为"能源到令牌的生产"过程，引入Token生产函数框架，呼吁业界在评估推理系统时除准确率外，还应报告每令牌焦耳能耗、PUE调整功率等能源指标，推动AI可持续发展。

章节 02

大语言模型推理性能评估长期聚焦准确率、延迟、吞吐量和硬件利用率，但随着LLM大规模部署，这些指标暴露出局限：现实生产中核心产出是特定质量下的令牌，受有效算力、供电能力、冷却容量、PUE及利用率等物理约束，推理已成为能源生产问题。

章节 03

新范式将推理视为"能源到令牌的生产"，引入Token生产函数框架：令牌生成速率受两个上限约束——每令牌算力上限（由模型架构、参数规模和硬件算力决定）和每令牌能源上限（由数据中心供电、冷却效率和PUE决定），需识别当前系统的"活跃约束"以制定优化策略。

章节 04

多种系统优化技术可作为能源到令牌杠杆：KV缓存压缩减少内存带宽需求降低能耗；稀疏和压缩注意力减少每令牌FLOPs及内存流量；量化技术降低运算能耗；路由和专家混合按需分配算力；难度自适应推理动态调整推理深度避免浪费。

章节 05

论文呼吁推理研究和基准测试报告以下指标：每令牌焦耳数（核心能源效率指标）、活跃约束条件（明确系统瓶颈）、PUE调整后的实际功率（考虑数据中心能源效率）、利用率调整后的令牌产出（有效生产能力）。

章节 06

环境角度：高能耗增加碳足迹，需应对气候变化；经济角度：能源成本成为LLM服务主要运营成本，提升效率是商业竞争力关键；技术角度：能源约束促使探索更高效的架构和算法。

章节 07

企业部署LLM服务的建议：建立能源基线（测量当前Joules/token指标）、识别活跃约束（分析算力或能源瓶颈）、优先投资能源杠杆（针对性优化技术）、持续监控优化（将能源指标纳入常规流程）。

章节 08

从"算力到令牌"到"能源到令牌"是思维方式的转变，LLM推理受物理定律约束。在AI大规模部署阶段，能源效率是技术可行性和商业可持续性的关键，期待行业采纳新范式推动AI绿色负责任发展。