正文

math-qa-llm：基于 Qwen3-4B-Thinking 的数学问题求解流水线

一个面向数学竞赛场景的大型语言模型推理系统，支持自由形式答案和选择题两种题型，采用自适应两阶段推理策略与自我一致性投票机制，在公开数据集上实现高效准确的数学问题求解。

math-qa-llmQwen3-4B-Thinking数学推理大型语言模型自适应推理自我一致性QLoRAGRPO强化学习多阶段推理

发布时间 2026/05/26 05:36最近活动 2026/05/26 05:49预计阅读 4 分钟

$math-qa-llm：基于 Qwen3-4B-Thinking 的数学问题求解流水线$

章节 01

math-qa-llm项目导读：基于Qwen3-4B-Thinking的数学问题求解流水线

math-qa-llm是面向数学竞赛场景的大型语言模型推理系统，支持自由形式答案和选择题两种题型，采用自适应两阶段推理策略与自我一致性投票机制，在公开数据集上实现高效准确的数学问题求解。项目由sardorsob维护，来源为GitHub（链接：https://github.com/sardorsob/math-qa-llm），更新时间为2026-05-25T21:36:35Z。

章节 02

项目背景与动机

数学问题求解是评估LLM推理能力的核心基准，需精确符号计算、多步逻辑推导及严格答案格式。传统端到端微调难以捕捉数学推理复杂性，尤其竞赛级题目需深度思考、自我验证与错误修正能力。math-qa-llm针对CSE151B课程竞赛任务构建，实现从数据加载到结果提交的完整工作流，并引入自适应多阶段推理策略提升推理质量。

章节 03

核心架构与技术选型

基础模型选择

选用Qwen/Qwen3-4B-Thinking-2507作为基座模型，该模型为推理优化的小型LLM，4B参数量兼顾推理能力与消费级硬件（如24GB VRAM的A30 GPU）运行效率，Thinking变体强化长链推理能力（通过...标签展示中间过程）。

环境适配策略

vLLM路径：适用于CUDA13+环境，支持高吞吐量批量推理，可实现N=8的自我一致性投票
Transformers路径：针对CUDA12.8等旧环境，用HuggingFace Transformers的model.generate()实现逐块批量生成双路径设计确保在本地工作站到云端A100实例的环境中稳定运行。

章节 04

自适应两阶段推理机制

第一阶段：快速初筛

配置参数：思考预算（Transformers路径1024tokens/vLLM路径4096tokens）、最大输出长度（Transformers4096tokens/vLLM6144tokens）、采样温度0.6、采样次数N=1。目标快速生成初步答案，通过不确定性信号筛选难题。

第二阶段：深度重试与自我一致性

对不确定问题提升配置：思考预算（Transformers4096tokens/vLLM8192tokens）、最大输出长度（Transformers5120tokens/vLLM6144tokens）、采样温度0.65、重复惩罚1.05、采样次数N=3（Transformers）/8（vLLM）。采用多数投票机制选择高频答案提升准确率。

分块批处理与检查点

Transformers路径用CHUNK_SIZE=6平衡内存与效率；细粒度检查点机制将结果写入checkpoint.jsonl，支持中断后断点恢复。

章节 05

训练优化：QLoRA与GRPO强化学习

QLoRA监督微调

量化配置：4-bit NF4量化+双量化
序列长度：4096tokens（A30）/8192tokens（A100）
学习率：5e-5
训练数据：NuminaMath数据集15000条高质量问题
训练轮数：2轮

GRPO强化学习优化

组大小G：4（A30）/8（A100）
最大生成长度：2048tokens
学习率：5e-7
KL散度系数Beta：0.1 GRPO无需额外价值网络，训练更稳定高效，引导模型学习可靠推理策略。

章节 06

答案提取与评分机制

支持两种答案格式：

自由形式答案：用\boxed{...}包裹最终答案，支持多答案槽位[ANS]
选择题答案：直接输出选项字母（A/B/C/D/E）评分模块judger.py实现数值容差判断（处理浮点数精度）和零除保护，确保数学等价答案正确识别。

章节 07

性能预期与实验结果

不同配置下的预期准确率：

配置阶段	预期准确率
基线（仅修复Bug）	47-52%
+ QLoRA微调	≥42%（基线保持）
+ GRPO强化学习（G=8）	60-75%
最佳情况（POLARIS等效配置）	最高79%
指标基于DAPO、Dr. GRPO、POLARIS-4B等最新研究成果，展示小型推理模型在特定领域的潜力。

章节 08

技术亮点与项目启示

技术亮点

自适应计算分配：按问题难度动态调整推理资源
自我一致性机制：多数投票提升复杂问题可靠性
工程鲁棒性：细粒度检查点、环境适配、双路径后端确保稳定运行
渐进式优化：从基线修复到监督微调再到强化学习的层层递进

启示

math-qa-llm证明4B参数小型模型通过精心设计的推理策略、自适应计算与强化学习优化，可在复杂数学推理任务取得优异表现。"小模型+强策略"范式或成特定领域应用重要方向。