正文

计算预算约束下的LLM优化策略：微调与推理时扩展的权衡分析

compute-scaling-frontier项目通过系统性的实验设计，探索在固定计算预算下，小型语言模型的微调训练与推理时扩展策略之间的最优权衡，为成本敏感场景下的模型部署提供决策依据。

计算预算优化微调训练推理时扩展LoRA自洽性推理成本分析GSM8K小型语言模型帕累托前沿模型部署

发布时间 2026/05/04 07:13最近活动 2026/05/04 07:23预计阅读 2 分钟

章节 01

【导读】计算预算约束下LLM优化策略：微调与推理扩展的权衡研究

本项目围绕固定计算预算下小型语言模型的优化策略展开，核心探讨将资源投入一次性微调训练还是推理时扩展（如自洽性推理）的最优权衡。通过GSM8K数学推理基准实验，结合LoRA微调、合成数据生成及推理策略整合，旨在为成本敏感场景下的模型部署提供量化决策依据，并绘制（成本-准确率）帕累托前沿。

章节 02

在LLM部署中，计算资源是关键约束。开发者面临决策难题：有限预算下，资源应投入一次性微调（固定成本）还是推理时扩展（随查询量线性增长的可变成本）？该权衡取决于预期查询量——低查询量时推理扩展可能更优，高查询量时微调成本可被摊薄。本项目旨在通过实验找到最优策略边界。

章节 03

实验以GSM8K为评估基准，采用Qwen2.5-1.5B-Instruct模型，整合三大核心库：

章节 04

实施中发现两个问题：

章节 05

建立简化成本模型：

章节 06

当前已完成本地垂直切片及烟雾测试（验证组件端到端连接），完整LoRA训练及帕累托图仍在进行。未来将完成训练、生成帕累托前沿、扩展模型/任务领域，并探索Best-of-N等推理策略。

章节 07

对开发者的建议：