Zing 论坛

正文

Small_Scale:通过小规模偏好优化剪枝大型推理模型的长思维链

Small_Scale项目提供了ICLR 2026论文的官方实现,包含完整的LLM离线推理评估工具包和DPO训练框架,支持vLLM/SGLang后端、多类型基准测试和基于LLaMA-Factory的偏好优化训练。

LLMreasoningchain-of-thoughtpruningpreference optimizationDPOvLLMSGLangevaluationICLR
发布时间 2026/03/31 14:05最近活动 2026/03/31 14:26预计阅读 3 分钟
Small_Scale:通过小规模偏好优化剪枝大型推理模型的长思维链
1

章节 01

Small_Scale项目导读

Small_Scale是ICLR 2026论文《Pruning Long Chain-of-Thought in Large Reasoning Models via Small-Scale Preference Optimization》的官方开源实现,旨在通过小规模偏好优化剪枝大型推理模型的长思维链,解决其计算开销大的问题。项目提供完整的LLM离线推理评估工具包和DPO训练框架,支持vLLM/SGLang后端、多类型基准测试及基于LLaMA-Factory的偏好优化训练,为推理模型研究与开发提供基础设施。

2

章节 02

研究背景与挑战

大型推理模型通过长思维链解决复杂问题,但过长推理带来巨大计算开销和延迟,限制实际部署效率。传统方法需大量数据微调或重训练,资源成本高。Small_Scale的核心洞察是:通过小规模偏好优化,可在不牺牲推理质量前提下有效剪枝冗余思维链内容。

3

章节 03

项目概述与工具包架构

Small_Scale是ICLR2026论文的官方实现,配套功能完备的LLM评估与训练工具包,支持完整工作流。工具包采用模块化架构:

  • 配置层(config/):管理全局路径、数据集元数据等配置;
  • 数据层(data/test/):内置数学、代码、多选题三大类权威基准数据集(parquet格式);
  • 推理层(eval/generation/):支持vLLM(多进程/随机混洗/单进程)及SGLang后端;
  • 评测层(eval/judgers/):实现数学、代码、多选题专用评判器及LLM-as-Judge模式;
  • 训练层(LLaMA-Factory/):集成框架支持DPO训练及DeepSpeed ZeRO-3配置。
4

章节 04

核心功能详解

  1. 灵活推理后端:支持vLLM(多进程数据并行/随机混洗/单进程)和SGLang,适配不同场景;
  2. 全面基准测试:覆盖数学(AIME/GSM8K等)、代码(LiveCodeBench)、多选题(MMLU等)任务,采用对应评估指标;
  3. 自动化评测:autojudger模块自动识别任务、调用评判器、计算得分并记录日志;
  4. 端到端流水线:推理脚本输出路径写入临时文件,实现推理与评测无缝衔接。
5

章节 05

使用方法

  • 环境准备:配置config/path.yaml路径,放置模型权重,依赖Python3.10+及相关库;
  • 推理评估:以vLLM多进程为例:python eval/generation/vllm_offline.py --config ... --model_name ... --dataset_name ...
  • 自动评测python eval/judgers/autojudger.py --config ... --file_path ...
  • DPO训练:配置dpo.yaml后启动:export CUDA_VISIBLE_DEVICES=...; llamafactory-cli train ...
6

章节 06

技术亮点与应用场景

技术亮点

  1. 数据并行优化:vLLM多进程分片提升吞吐效率,支持随机混洗消除偏差;
  2. 灵活采样配置:统一参数结构,可调temperature/top_p等,支持张量并行等高级配置;
  3. LLM-as-Judge:支持调用OpenAI API等进行智能评判复杂输出。

应用场景

  1. 推理模型剪枝研究:提供实验基础设施;
  2. 模型选型对比:标准化基准测试获取可对比指标;
  3. 持续集成监控:易于集成CI/CD管道,支持版本回归测试。
7

章节 07

学术贡献与总结

学术贡献:项目对应论文被ICLR2026接收,提出通过小规模偏好优化剪枝长思维链的方法,平衡推理能力与效率。

总结:Small_Scale不仅是论文实现,更是功能完备的LLM评估与训练基础设施,模块化架构、多后端支持等设计降低研究门槛,推动推理模型技术进步。