章节 01
Small_Scale项目导读
Small_Scale是ICLR 2026论文《Pruning Long Chain-of-Thought in Large Reasoning Models via Small-Scale Preference Optimization》的官方开源实现,旨在通过小规模偏好优化剪枝大型推理模型的长思维链,解决其计算开销大的问题。项目提供完整的LLM离线推理评估工具包和DPO训练框架,支持vLLM/SGLang后端、多类型基准测试及基于LLaMA-Factory的偏好优化训练,为推理模型研究与开发提供基础设施。