# Small_Scale：通过小规模偏好优化剪枝大型推理模型的长思维链

> Small_Scale项目提供了ICLR 2026论文的官方实现，包含完整的LLM离线推理评估工具包和DPO训练框架，支持vLLM/SGLang后端、多类型基准测试和基于LLaMA-Factory的偏好优化训练。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-03-31T06:05:31.000Z
- 最近活动: 2026-03-31T06:26:17.592Z
- 热度: 154.7
- 关键词: LLM, reasoning, chain-of-thought, pruning, preference optimization, DPO, vLLM, SGLang, evaluation, ICLR
- 页面链接: https://www.zingnex.cn/forum/thread/small-scale
- Canonical: https://www.zingnex.cn/forum/thread/small-scale
- Markdown 来源: ingested_event

---

# Small_Scale：通过小规模偏好优化剪枝大型推理模型的长思维链

## 研究背景与挑战

大型推理模型（Large Reasoning Models）通过生成冗长的思维链（Chain-of-Thought）来逐步解决复杂问题，这种方法在数学推理、代码生成等任务上取得了显著成效。然而，过长的推理过程带来了巨大的计算开销和延迟，限制了模型在实际应用中的部署效率。如何在保持推理能力的同时压缩思维链长度，成为提升推理模型实用性的关键课题。

传统的方法往往需要在大量数据上进行昂贵的微调或重新训练，这对于资源有限的研究者和开发者来说是一个不小的障碍。Small_Scale项目提出的核心洞察是：通过小规模的偏好优化（Preference Optimization），可以在不牺牲太多推理质量的前提下，有效剪枝冗余的思维链内容。

## 项目概述

Small_Scale是ICLR 2026会议接收论文《Pruning Long Chain-of-Thought in Large Reasoning Models via Small-Scale Preference Optimization》的官方开源实现。该项目不仅提供了论文中核心方法的代码，还配套了一个功能完备的LLM评估与训练工具包，支持从离线推理、自动评测到偏好优化训练的完整工作流。

## 工具包架构与功能

### 模块化目录结构

项目采用清晰的分层架构，各功能模块职责明确：

**配置层（config/）**：集中管理全局路径、数据集元数据、任务提示模板、推理后端配置、评估协议以及训练参数。用户只需在path.yaml等核心配置文件中填写实际路径，即可快速启动整个流程。

**数据层（data/test/）**：内置了数学、代码、多选题三大类基准测试数据，涵盖math、math-500、gsm8k、aime24、aime25、amc23、LiveCodeBench、mmlu、gpqa-d等多个权威数据集，均以高效的parquet格式存储。

**推理层（eval/generation/）**：提供多种推理后端支持，包括vLLM的多进程数据并行版本（推荐）、随机混洗版本、单进程基础版本，以及SGLang后端。每种后端都针对特定场景进行了优化。

**评测层（eval/judgers/）**：实现了自动化的答案评判系统，支持数学任务、代码任务和多选题任务的专用评判器。其中数学评判器包含答案提取和规范化功能，代码评判器集成了LiveCodeBench的评测逻辑，同时还支持LLM-as-Judge模式应对复杂场景。

**训练层（LLaMA-Factory/）**：集成了LLaMA-Factory框架，支持DPO（Direct Preference Optimization）训练，并提供了DeepSpeed ZeRO-3配置以支持大规模模型的高效训练。

## 核心功能详解

### 灵活的推理后端支持

项目同时支持vLLM和SGLang两大高性能推理引擎：

**vLLM后端**提供了三种运行模式：标准的多进程数据并行版本通过智能的数据分片策略最大化GPU利用率；随机混洗版本在并行基础上增加了数据随机性，有助于某些评估场景；单进程基础版本则适用于资源受限或调试场景。

**SGLang后端**则针对结构化生成和特定优化场景提供了替代选择，用户可以根据模型特性和任务需求灵活切换。

### 全面的基准测试覆盖

工具包内置了三大类任务的评测能力：

**数学推理任务**支持包括AIME（2024/2025）、AMC、GSM8K、MATH、OlympiadBench等在内的权威竞赛数据集，默认采用准确率（accuracy）或多次采样平均（avg@16）作为评估指标。

**代码生成任务**集成了LiveCodeBench（LCB）评测体系，使用pass@1指标衡量代码正确性。

**多选题任务**涵盖MMLU、GPQA-Diamond、ARC-Challenge、Winogrande等知识推理数据集，同样以准确率为主要指标。

### 自动化的评测流程

autojudger模块实现了评测流程的高度自动化。用户只需指定评测协议配置文件和推理结果文件路径，系统即可自动识别任务类型、调用相应的评判器、计算得分并输出统计信息（包括平均分、最大/最小生成长度等）。评测结果会自动追加到日志文件中，便于长期追踪和对比分析。

### 端到端流水线支持

项目设计了巧妙的流水线衔接机制。推理脚本完成后会将输出文件路径写入临时文件，用户可以通过简单的命令组合实现推理和评测的无缝衔接，无需手动传递文件路径。这种设计大大简化了批量评估工作流的构建。

## 使用方法

### 环境准备

首先需要在config/path.yaml中配置数据目录、模型目录、输出目录等关键路径。然后将模型权重放置在指定目录下，目录名即为模型标识名。项目依赖Python 3.10+，以及vLLM或SGLang（根据选择的后端）、transformers、pandas等常用库。

### 推理评估

以vLLM多进程后端为例，运行推理只需指定配置文件、模型名和数据集名：

```bash
python eval/generation/vllm_offline.py \
    --config config/eval/vllm_offline.yaml \
    --model_name Qwen3-4B-Instruct-2507 \
    --dataset_name aime25
```

### 自动评测

推理完成后，使用autojudger进行自动评分：

```bash
python eval/judgers/autojudger.py \
    --config config/eval/eval_protocol.yaml \
    --file_path output/data/math/aime25/Qwen3-4B-Instruct-2507/xxx.parquet
```

### DPO训练

在config/train/llama_factory/dpo.yaml中配置基础模型路径、训练超参数后，即可启动偏好优化训练：

```bash
export CUDA_VISIBLE_DEVICES="0,1,2,3"
llamafactory-cli train config/train/llama_factory/dpo.yaml
```

## 技术亮点

### 数据并行优化

vLLM多进程版本采用了数据并行（Data Parallel）策略，通过将数据集分片到多个进程并行处理，显著提升了大规模评估任务的吞吐效率。同时，项目还提供了随机混洗选项，有助于消除数据顺序可能带来的偏差。

### 灵活的采样配置

所有推理配置共享统一的采样参数结构，用户可以轻松调整temperature、top_p、max_tokens等关键参数。此外，还支持张量并行大小、GPU内存利用率、数据并行进程数等高级配置，满足不同硬件环境的需求。

### LLM-as-Judge支持

对于难以通过规则自动评判的复杂输出，项目集成了LLM-as-Judge模式，支持调用OpenAI API或其他兼容接口进行智能评判。这一功能通过配置文件中的api_router和api_utils模块实现，为评测流程提供了额外的灵活性。

## 应用场景

### 推理模型剪枝研究

作为论文的官方实现，该项目为研究长思维链剪枝的学者提供了完整的实验基础设施。研究者可以利用工具包快速评估不同剪枝策略对推理能力的影响，并通过DPO训练探索更高效的偏好优化方法。

### 模型选型与对比

开发者和研究团队可以利用该工具包对多个候选模型进行标准化的基准测试，获取可对比的性能指标，为模型选型决策提供数据支持。

### 持续集成与模型监控

工具包的命令行友好设计和自动化流程使其易于集成到CI/CD管道中，支持对模型版本进行回归测试和性能监控。

## 学术贡献与引用

该项目对应的论文已被ICLR 2026接收，作者团队来自学术界。论文提出了通过小规模偏好优化来剪枝大型推理模型长思维链的方法，在保持推理能力的同时显著提升了效率。如果该工具包对您的研究有所帮助，请按照项目README中的BibTeX格式引用相关论文。

## 总结

Small_Scale项目不仅是一个学术论文的实现，更是一个功能完备、设计精良的LLM评估与训练基础设施。它通过模块化的架构、多后端支持、全面的基准覆盖和自动化的流程设计，为推理模型的研究、开发和部署提供了强有力的工具支持。随着大型推理模型在各领域的深入应用，这类系统化的评估训练工具将在推动技术进步和降低研究门槛方面发挥越来越重要的作用。
