正文

Small_Scale：通过小规模偏好优化剪枝大型推理模型的长思维链

Small_Scale项目提供了ICLR 2026论文的官方实现，包含完整的LLM离线推理评估工具包和DPO训练框架，支持vLLM/SGLang后端、多类型基准测试和基于LLaMA-Factory的偏好优化训练。

LLMreasoningchain-of-thoughtpruningpreference optimizationDPOvLLMSGLangevaluationICLR

发布时间 2026/03/31 14:05最近活动 2026/03/31 14:26预计阅读 3 分钟

章节 01

Small_Scale项目导读

Small_Scale是ICLR 2026论文《Pruning Long Chain-of-Thought in Large Reasoning Models via Small-Scale Preference Optimization》的官方开源实现，旨在通过小规模偏好优化剪枝大型推理模型的长思维链，解决其计算开销大的问题。项目提供完整的LLM离线推理评估工具包和DPO训练框架，支持vLLM/SGLang后端、多类型基准测试及基于LLaMA-Factory的偏好优化训练，为推理模型研究与开发提供基础设施。

章节 02

研究背景与挑战

大型推理模型通过长思维链解决复杂问题，但过长推理带来巨大计算开销和延迟，限制实际部署效率。传统方法需大量数据微调或重训练，资源成本高。Small_Scale的核心洞察是：通过小规模偏好优化，可在不牺牲推理质量前提下有效剪枝冗余思维链内容。

章节 03

项目概述与工具包架构

Small_Scale是ICLR2026论文的官方实现，配套功能完备的LLM评估与训练工具包，支持完整工作流。工具包采用模块化架构：

配置层（config/）：管理全局路径、数据集元数据等配置；
数据层（data/test/）：内置数学、代码、多选题三大类权威基准数据集（parquet格式）；
推理层（eval/generation/）：支持vLLM（多进程/随机混洗/单进程）及SGLang后端；
评测层（eval/judgers/）：实现数学、代码、多选题专用评判器及LLM-as-Judge模式；
训练层（LLaMA-Factory/）：集成框架支持DPO训练及DeepSpeed ZeRO-3配置。

章节 04

核心功能详解

灵活推理后端：支持vLLM（多进程数据并行/随机混洗/单进程）和SGLang，适配不同场景；
全面基准测试：覆盖数学（AIME/GSM8K等）、代码（LiveCodeBench）、多选题（MMLU等）任务，采用对应评估指标；
自动化评测：autojudger模块自动识别任务、调用评判器、计算得分并记录日志；
端到端流水线：推理脚本输出路径写入临时文件，实现推理与评测无缝衔接。

章节 05

使用方法

环境准备：配置config/path.yaml路径，放置模型权重，依赖Python3.10+及相关库；
推理评估：以vLLM多进程为例：python eval/generation/vllm_offline.py --config ... --model_name ... --dataset_name ...；
自动评测：python eval/judgers/autojudger.py --config ... --file_path ...；
DPO训练：配置dpo.yaml后启动：export CUDA_VISIBLE_DEVICES=...; llamafactory-cli train ...。

章节 06

技术亮点与应用场景

技术亮点：

数据并行优化：vLLM多进程分片提升吞吐效率，支持随机混洗消除偏差；
灵活采样配置：统一参数结构，可调temperature/top_p等，支持张量并行等高级配置；
LLM-as-Judge：支持调用OpenAI API等进行智能评判复杂输出。

应用场景：

推理模型剪枝研究：提供实验基础设施；
模型选型对比：标准化基准测试获取可对比指标；
持续集成监控：易于集成CI/CD管道，支持版本回归测试。

章节 07

学术贡献与总结

学术贡献：项目对应论文被ICLR2026接收，提出通过小规模偏好优化剪枝长思维链的方法，平衡推理能力与效率。

总结：Small_Scale不仅是论文实现，更是功能完备的LLM评估与训练基础设施，模块化架构、多后端支持等设计降低研究门槛，推动推理模型技术进步。

Small_Scale：通过小规模偏好优化剪枝大型推理模型的长思维链

Small_Scale项目导读

研究背景与挑战

项目概述与工具包架构

核心功能详解

使用方法

技术亮点与应用场景

学术贡献与总结

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统