Zing 论坛

正文

ReasonBench:分离记忆与推理能力的LLM评估与训练框架

一个用于评估和增强大语言模型推理能力的开源框架,通过特殊token显式分离记忆提取与逻辑推理过程,帮助模型更好地解决复杂问题。

LLM推理能力链式思维模型评估机器学习AI研究微调开源框架
发布时间 2026/04/07 18:58最近活动 2026/04/07 19:23预计阅读 2 分钟
ReasonBench:分离记忆与推理能力的LLM评估与训练框架
1

章节 01

ReasonBench框架核心导读

ReasonBench是专注于LLM推理能力评估与增强的开源框架,核心创新在于通过特殊token显式分离"记忆提取"与"逻辑推理"过程,解决传统链式思维(CoT)方法无法区分模型是依赖记忆还是真正推理的问题,帮助研究者更精细地观察和改进模型推理能力。

2

章节 02

背景:传统LLM推理评估的痛点

传统CoT提示方法虽能提升推理表现,但难以区分模型是进行逻辑推理还是回忆训练数据中的类似模式。这导致无法准确诊断模型错误根源,也难以针对性优化推理能力。ReasonBench的设计正是为了解决这一问题。

3

章节 03

核心方法:记忆与推理的显式分离

ReasonBench通过两种特殊token实现认知过程分离:

  • <memory>:提取问题中的事实、数字或公式,仅做信息提取不涉及推导;
  • <reason>:基于memory阶段的事实进行计算和逻辑运算,推导结论。 该方法可帮助:诊断错误根源(记忆或推理阶段)、针对性改进训练策略、增强模型思考过程的可解释性。
4

章节 04

技术流程:生成、微调与评估

ReasonBench工作流程分为三阶段:

  1. CoT数据生成:使用LLM(vLLM或OpenAI API)生成带特殊token标注的结构化CoT步骤,默认用Qwen3.5-27B作为教师模型;
  2. 模型微调:支持标准监督微调(LoRA)和多种强化学习方法(DPO、CPO等);
  3. 评估:灵活支持本地模型、vLLM加速或OpenAI API评估,自动适配模型类型。 示例命令:生成数据./run.sh --generate --dataset truthfulqa --mode train,微调./run.sh --train --dataset truthfulqa,评估./run.sh --eval --model /path/to/checkpoint --dataset truthfulqa
5

章节 05

特性与扩展:数据集与配置

ReasonBench内置多种推理基准数据集(如GSM8K、MMLU-Pro、TruthfulQA等),涵盖数学、常识、科学问答等领域。配置系统采用分层架构:

  • conf/settings.yaml:控制模型、训练超参数等核心设置;
  • conf/datasets.yaml:定义数据集属性;
  • conf/tokens.py:自定义CoT token及输出格式(冒号或闭合标签)。 添加自定义数据集只需三步:注册到datasets.yaml、实现数据集类、注册到映射表。
6

章节 06

研究价值与开源社区

ReasonBench为LLM研究提供多方向价值:准确评估纯推理能力、定位错误根源、支持课程学习、公平比较模型推理性能、增强可解释性。安装简单:git clone https://github.com/metalearningnet/ReasonBench.git && cd ReasonBench && ./install.sh,支持vLLM和OpenAI API后端。项目采用MIT许可证开源,鼓励社区贡献新数据集、训练方法和评估指标。