章节 01
【导读】计算预算约束下LLM优化策略:微调与推理扩展的权衡研究
本项目围绕固定计算预算下小型语言模型的优化策略展开,核心探讨将资源投入一次性微调训练还是推理时扩展(如自洽性推理)的最优权衡。通过GSM8K数学推理基准实验,结合LoRA微调、合成数据生成及推理策略整合,旨在为成本敏感场景下的模型部署提供量化决策依据,并绘制(成本-准确率)帕累托前沿。
正文
compute-scaling-frontier项目通过系统性的实验设计,探索在固定计算预算下,小型语言模型的微调训练与推理时扩展策略之间的最优权衡,为成本敏感场景下的模型部署提供决策依据。
章节 01
本项目围绕固定计算预算下小型语言模型的优化策略展开,核心探讨将资源投入一次性微调训练还是推理时扩展(如自洽性推理)的最优权衡。通过GSM8K数学推理基准实验,结合LoRA微调、合成数据生成及推理策略整合,旨在为成本敏感场景下的模型部署提供量化决策依据,并绘制(成本-准确率)帕累托前沿。
章节 02
在LLM部署中,计算资源是关键约束。开发者面临决策难题:有限预算下,资源应投入一次性微调(固定成本)还是推理时扩展(随查询量线性增长的可变成本)?该权衡取决于预期查询量——低查询量时推理扩展可能更优,高查询量时微调成本可被摊薄。本项目旨在通过实验找到最优策略边界。
章节 03
实验以GSM8K为评估基准,采用Qwen2.5-1.5B-Instruct模型,整合三大核心库:
章节 04
实施中发现两个问题:
final_answer_projection函数映射到数值空间解决;章节 05
建立简化成本模型:
章节 06
当前已完成本地垂直切片及烟雾测试(验证组件端到端连接),完整LoRA训练及帕累托图仍在进行。未来将完成训练、生成帕累托前沿、扩展模型/任务领域,并探索Best-of-N等推理策略。
章节 07
对开发者的建议: