Zing 论坛

正文

math-qa-llm:基于 Qwen3-4B-Thinking 的数学问题求解流水线

一个面向数学竞赛场景的大型语言模型推理系统,支持自由形式答案和选择题两种题型,采用自适应两阶段推理策略与自我一致性投票机制,在公开数据集上实现高效准确的数学问题求解。

math-qa-llmQwen3-4B-Thinking数学推理大型语言模型自适应推理自我一致性QLoRAGRPO强化学习多阶段推理
发布时间 2026/05/26 05:36最近活动 2026/05/26 05:49预计阅读 4 分钟
math-qa-llm:基于 Qwen3-4B-Thinking 的数学问题求解流水线
1

章节 01

math-qa-llm项目导读:基于Qwen3-4B-Thinking的数学问题求解流水线

math-qa-llm是面向数学竞赛场景的大型语言模型推理系统,支持自由形式答案和选择题两种题型,采用自适应两阶段推理策略与自我一致性投票机制,在公开数据集上实现高效准确的数学问题求解。项目由sardorsob维护,来源为GitHub(链接:https://github.com/sardorsob/math-qa-llm),更新时间为2026-05-25T21:36:35Z。

2

章节 02

项目背景与动机

数学问题求解是评估LLM推理能力的核心基准,需精确符号计算、多步逻辑推导及严格答案格式。传统端到端微调难以捕捉数学推理复杂性,尤其竞赛级题目需深度思考、自我验证与错误修正能力。math-qa-llm针对CSE151B课程竞赛任务构建,实现从数据加载到结果提交的完整工作流,并引入自适应多阶段推理策略提升推理质量。

3

章节 03

核心架构与技术选型

基础模型选择

选用Qwen/Qwen3-4B-Thinking-2507作为基座模型,该模型为推理优化的小型LLM,4B参数量兼顾推理能力与消费级硬件(如24GB VRAM的A30 GPU)运行效率,Thinking变体强化长链推理能力(通过...标签展示中间过程)。

环境适配策略

  • vLLM路径:适用于CUDA13+环境,支持高吞吐量批量推理,可实现N=8的自我一致性投票
  • Transformers路径:针对CUDA12.8等旧环境,用HuggingFace Transformers的model.generate()实现逐块批量生成 双路径设计确保在本地工作站到云端A100实例的环境中稳定运行。
4

章节 04

自适应两阶段推理机制

第一阶段:快速初筛

配置参数:思考预算(Transformers路径1024tokens/vLLM路径4096tokens)、最大输出长度(Transformers4096tokens/vLLM6144tokens)、采样温度0.6、采样次数N=1。目标快速生成初步答案,通过不确定性信号筛选难题。

第二阶段:深度重试与自我一致性

对不确定问题提升配置:思考预算(Transformers4096tokens/vLLM8192tokens)、最大输出长度(Transformers5120tokens/vLLM6144tokens)、采样温度0.65、重复惩罚1.05、采样次数N=3(Transformers)/8(vLLM)。采用多数投票机制选择高频答案提升准确率。

分块批处理与检查点

Transformers路径用CHUNK_SIZE=6平衡内存与效率;细粒度检查点机制将结果写入checkpoint.jsonl,支持中断后断点恢复。

5

章节 05

训练优化:QLoRA与GRPO强化学习

QLoRA监督微调

  • 量化配置:4-bit NF4量化+双量化
  • 序列长度:4096tokens(A30)/8192tokens(A100)
  • 学习率:5e-5
  • 训练数据:NuminaMath数据集15000条高质量问题
  • 训练轮数:2轮

GRPO强化学习优化

  • 组大小G:4(A30)/8(A100)
  • 最大生成长度:2048tokens
  • 学习率:5e-7
  • KL散度系数Beta:0.1 GRPO无需额外价值网络,训练更稳定高效,引导模型学习可靠推理策略。
6

章节 06

答案提取与评分机制

支持两种答案格式:

  1. 自由形式答案:用\boxed{...}包裹最终答案,支持多答案槽位[ANS]
  2. 选择题答案:直接输出选项字母(A/B/C/D/E) 评分模块judger.py实现数值容差判断(处理浮点数精度)和零除保护,确保数学等价答案正确识别。
7

章节 07

性能预期与实验结果

不同配置下的预期准确率:

配置阶段 预期准确率
基线(仅修复Bug) 47-52%
+ QLoRA微调 ≥42%(基线保持)
+ GRPO强化学习(G=8) 60-75%
最佳情况(POLARIS等效配置) 最高79%
指标基于DAPO、Dr. GRPO、POLARIS-4B等最新研究成果,展示小型推理模型在特定领域的潜力。
8

章节 08

技术亮点与项目启示

技术亮点

  1. 自适应计算分配:按问题难度动态调整推理资源
  2. 自我一致性机制:多数投票提升复杂问题可靠性
  3. 工程鲁棒性:细粒度检查点、环境适配、双路径后端确保稳定运行
  4. 渐进式优化:从基线修复到监督微调再到强化学习的层层递进

启示

math-qa-llm证明4B参数小型模型通过精心设计的推理策略、自适应计算与强化学习优化,可在复杂数学推理任务取得优异表现。"小模型+强策略"范式或成特定领域应用重要方向。