章节 01
ReasonBench框架核心导读
ReasonBench是专注于LLM推理能力评估与增强的开源框架,核心创新在于通过特殊token显式分离"记忆提取"与"逻辑推理"过程,解决传统链式思维(CoT)方法无法区分模型是依赖记忆还是真正推理的问题,帮助研究者更精细地观察和改进模型推理能力。
正文
一个用于评估和增强大语言模型推理能力的开源框架,通过特殊token显式分离记忆提取与逻辑推理过程,帮助模型更好地解决复杂问题。
章节 01
ReasonBench是专注于LLM推理能力评估与增强的开源框架,核心创新在于通过特殊token显式分离"记忆提取"与"逻辑推理"过程,解决传统链式思维(CoT)方法无法区分模型是依赖记忆还是真正推理的问题,帮助研究者更精细地观察和改进模型推理能力。
章节 02
传统CoT提示方法虽能提升推理表现,但难以区分模型是进行逻辑推理还是回忆训练数据中的类似模式。这导致无法准确诊断模型错误根源,也难以针对性优化推理能力。ReasonBench的设计正是为了解决这一问题。
章节 03
ReasonBench通过两种特殊token实现认知过程分离:
<memory>:提取问题中的事实、数字或公式,仅做信息提取不涉及推导;<reason>:基于memory阶段的事实进行计算和逻辑运算,推导结论。
该方法可帮助:诊断错误根源(记忆或推理阶段)、针对性改进训练策略、增强模型思考过程的可解释性。章节 04
ReasonBench工作流程分为三阶段:
./run.sh --generate --dataset truthfulqa --mode train,微调./run.sh --train --dataset truthfulqa,评估./run.sh --eval --model /path/to/checkpoint --dataset truthfulqa。章节 05
ReasonBench内置多种推理基准数据集(如GSM8K、MMLU-Pro、TruthfulQA等),涵盖数学、常识、科学问答等领域。配置系统采用分层架构:
conf/settings.yaml:控制模型、训练超参数等核心设置;conf/datasets.yaml:定义数据集属性;conf/tokens.py:自定义CoT token及输出格式(冒号或闭合标签)。
添加自定义数据集只需三步:注册到datasets.yaml、实现数据集类、注册到映射表。章节 06
ReasonBench为LLM研究提供多方向价值:准确评估纯推理能力、定位错误根源、支持课程学习、公平比较模型推理性能、增强可解释性。安装简单:git clone https://github.com/metalearningnet/ReasonBench.git && cd ReasonBench && ./install.sh,支持vLLM和OpenAI API后端。项目采用MIT许可证开源,鼓励社区贡献新数据集、训练方法和评估指标。