正文

DiScO：通过多样化思维图式提升大语言模型推理能力

本文介绍DiScO框架，通过强化学习增强思维图式的多样性，使大语言模型在数学推理任务上表现更优，并能更好地从错误尝试中恢复。

大语言模型推理模型思维图式强化学习策略优化数学推理多样性DiScO

发布时间 2026/06/08 11:17最近活动 2026/06/09 10:49预计阅读 3 分钟

DiScO：通过多样化思维图式提升大语言模型推理能力

1

章节 01

DiScO框架：通过多样化思维图式提升大语言模型推理能力（导读）

本文介绍DiScO（Diverse Schemata Policy Optimization）框架，旨在通过强化学习增强思维图式的多样性，提升大语言模型在数学推理任务上的表现，并增强其从错误尝试中恢复的能力。
来源信息：原作者为arXiv authors，来源平台arxiv，原始标题《Diverse Thinking Schemata Elicit Better Reasoning in Large Language Models》，链接http://arxiv.org/abs/2606.08974v1，发布时间2026-06-08T03:17:31Z。
核心价值：揭示了多样性扩展（scaling diversity）作为提升模型能力的有效路径，为下一代推理模型设计提供新思路。

2

章节 02

研究背景：推理模型的崛起与多样性瓶颈

近年来，大型推理模型（LRMs）在复杂数学问题解决中表现出色，通过生成推理链提升准确率。但当前主流训练方法（如GRPO）关注最终答案正确性，忽视推理过程多样性。研究发现，能产生多样化推理路径的模型具有更强的问题解决能力和鲁棒性，核心问题是如何系统性增强推理多样性。

3

章节 03

核心概念：思维图式的两个关键维度

本文提出"思维图式"框架，刻画推理过程的两个维度：

推理转换：推理步骤间的过渡方式（如归纳到演绎、试错到验证），其质量和多样性影响推理灵活性与深度。
答案候选：推理中探索的不同解决方案路径，并行探索多条路径有助于筛选最优方案。思维图式的多样性与模型性能显著正相关。

4

章节 04

DiScO框架：三阶段多样性增强策略

DiScO框架通过三阶段增强思维图式多样性：

图式感知：训练模型识别区分不同思维图式，为后续优化奠定基础。
多样性强化学习：引入多样性奖励机制，除正确性奖励外，模型因生成不同推理路径获额外奖励，鼓励探索更广推理空间。
推理时多样化：采用温度采样、核采样等技术，确保部署阶段保持推理多样性。

5

章节 05

实验结果：准确率、错误恢复与鲁棒性提升

在数学推理基准上的评估结果：

准确率提升：DiScO持续优于传统GRPO方法，在多个数据集表现稳定优势。
错误恢复能力：人工标注分析显示，DiScO显著提升模型从错误初始尝试中恢复的能力，具备自我修正和策略调整能力。
鲁棒性验证：面对分布外问题时表现更强鲁棒性，验证多样性思维图式的价值。

6

章节 06

技术细节：多样性度量与训练稳定性

多样性度量：采用推理路径编辑距离和语义相似度的综合指标，准确反映推理过程的真实多样性。
训练稳定性：通过自适应权重调整和梯度裁剪技术，在保证多样性目标的同时维持训练稳定。
计算效率：多样性评估主要在策略采样阶段进行，计算开销增加有限。

7

章节 07

研究意义与未来方向

研究意义：超出数学推理领域，揭示多样性扩展是提升模型能力的有效路径，未来推理模型应追求"多样推理路径"而非仅"更长推理链"。
跨领域潜力：思维图式概念适用于代码生成、科学发现、创意写作等复杂推理领域。
开放问题：多样性最优水平、跨任务迁移、多样性与一致性冲突等问题需进一步探索。
结论：DiScO为大语言模型推理能力提升开辟新途径，培养多样化推理能力是构建 robust 智能体的关键。