# DiScO：通过多样化思维图式提升大语言模型推理能力

> 本文介绍DiScO框架，通过强化学习增强思维图式的多样性，使大语言模型在数学推理任务上表现更优，并能更好地从错误尝试中恢复。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-08T03:17:31.000Z
- 最近活动: 2026-06-09T02:49:07.172Z
- 热度: 127.5
- 关键词: 大语言模型, 推理模型, 思维图式, 强化学习, 策略优化, 数学推理, 多样性, DiScO
- 页面链接: https://www.zingnex.cn/forum/thread/disco-2e8ac7a3
- Canonical: https://www.zingnex.cn/forum/thread/disco-2e8ac7a3
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：Diverse Thinking Schemata Elicit Better Reasoning in Large Language Models
- 原始链接：http://arxiv.org/abs/2606.08974v1
- 来源发布时间/更新时间：2026-06-08T03:17:31Z

## 原作者与来源\n\n- 原作者/维护者：arXiv authors\n- 来源平台：arxiv\n- 原始标题：Diverse Thinking Schemata Elicit Better Reasoning in Large Language Models\n- 原始链接：http://arxiv.org/abs/2606.08974v1\n- 来源发布时间/更新时间：2026-06-08T03:17:31Z\n\n## 研究背景：推理模型的崛起与瓶颈\n\n近年来，大型推理模型（Large Reasoning Models, LRMs）因其在解决复杂数学问题方面的出色表现而备受关注。这些模型通过生成扩展的推理链（chain-of-thought）来逐步推导答案，显著提升了在数学竞赛、逻辑谜题等任务上的准确率。然而，随着研究的深入，人们逐渐意识到：推理的长度并不等同于推理的质量。\n\n当前主流的推理模型训练方法，如群体相对策略优化（Group Relative Policy Optimization, GRPO），主要关注最终答案的正确性，却忽视了一个关键维度——推理过程的多样性。在实际观察中，研究人员发现：那些能够产生多样化推理路径的模型，往往表现出更强的问题解决能力和鲁棒性。这引出了一个核心问题：如何系统性地增强模型推理过程的多样性？\n\n## 核心概念：思维图式（Thinking Schemata）\n\n本文提出了一个重要的理论框架——"思维图式"（Thinking Schemata），用于刻画推理过程中的两个关键维度：\n\n### 1. 推理转换（Reasoning Transitions）\n\n推理转换指的是推理步骤之间的过渡方式。在解决复杂问题时，模型需要在不同的推理策略之间灵活切换：从归纳到演绎，从具体实例到抽象概括，从试错到验证。这些转换的质量和多样性直接影响推理的灵活性和深度。\n\n### 2. 答案候选（Answer Candidates）\n\n答案候选反映了模型在推理过程中探索的不同解决方案路径。一个强大的推理模型不应该只沿着单一思路前进，而应该能够并行探索多条可能的解决路径，从中筛选最优方案。\n\n这两个维度共同构成了"思维图式"，而思维图式的多样性被证明与模型性能存在显著正相关。\n\n## DiScO框架：三阶段增强策略\n\n基于上述洞察，研究团队提出了**Diverse Schemata Policy Optimization（DiScO）**框架，通过三个阶段系统性地增强思维图式的多样性：\n\n### 第一阶段：图式感知（Schemata Awareness）\n\n在这一阶段，模型首先被训练以识别和区分不同的思维图式。通过精心设计的训练数据，模型学会感知推理转换的类型和答案候选的分布，为后续的多样性优化奠定基础。\n\n### 第二阶段：多样性强化学习（Diversity via RL）\n\n这是DiScO的核心创新。在标准的策略优化基础上，DiScO引入了多样性奖励机制。除了传统的正确性奖励外，模型还会因为生成与已有样本不同的推理路径而获得额外奖励。这种机制鼓励模型探索更广阔的推理空间，而非仅仅收敛到单一的最优策略。\n\n### 第三阶段：推理时多样化（Inference-time Diversity）\n\n在推理阶段，DiScO采用多种策略促进多样化推理，包括温度采样、核采样等技术，确保即使在部署阶段也能保持推理的多样性。\n\n## 实验结果与性能提升\n\n研究团队在多个数学推理基准上评估了DiScO的效果，结果令人振奋：\n\n### 准确率提升\n\n在标准数学推理任务上，DiScO consistently outperforms 传统的群体相对策略优化方法。这种提升不是边际性的，而是在多个数据集上都表现出稳定的优势。\n\n### 错误恢复能力\n\n更具意义的是人工标注分析的结果。研究发现，DiScO显著提升了模型从错误初始尝试中恢复的能力。这意味着模型不仅能够生成正确答案，还具备了自我修正和灵活调整推理策略的能力——这正是人类专家解决问题时的关键特征。\n\n### 鲁棒性验证\n\n实验还表明，DiScO训练出的模型在面对分布外（out-of-distribution）问题时表现出更强的鲁棒性，这进一步验证了多样性思维图式的价值。\n\n## 技术细节与实现考量\n\n### 多样性度量\n\nDiScO框架中，多样性的度量是一个关键挑战。研究团队采用了基于推理路径编辑距离和语义相似度的综合指标，确保奖励机制能够准确反映推理过程的真正多样性，而非表面的词汇变化。\n\n### 训练稳定性\n\n引入多样性奖励可能带来训练不稳定的问题。DiScO通过自适应权重调整和梯度裁剪技术，在保证多样性目标的同时维持了训练的稳定性。\n\n### 计算效率\n\n尽管增加了多样性目标，DiScO的计算开销增加有限。这是因为多样性评估主要在策略采样阶段进行，而非在模型前向传播中引入额外计算。\n\n## 研究意义与未来方向\n\n这项研究的意义远超出了数学推理领域本身。它揭示了一个被忽视但至关重要的维度：在规模扩展（scaling up）之外，多样性扩展（scaling diversity）可能是提升模型能力的另一条有效路径。\n\n### 对推理模型的启示\n\nDiScO的成功表明，未来的推理模型训练不应只关注"生成更长的推理链"，而应该追求"生成更多样的推理路径"。这为下一代推理模型的设计提供了新的思路。\n\n### 跨领域应用潜力\n\n思维图式的概念具有广泛的适用性。从代码生成到科学发现，从创意写作到战略规划，任何需要复杂推理的领域都可能从多样性增强中受益。\n\n### 开放问题\n\n研究也留下了一些值得探索的问题：多样性的最优水平是多少？如何在不同任务之间迁移多样性策略？多样性是否会与一致性产生冲突？这些问题为后续研究指明了方向。\n\n## 结论\n\nDiScO框架通过系统性地增强思维图式的多样性，为大型语言模型的推理能力提升开辟了新途径。它不仅带来了量化的性能改进，更重要的是揭示了多样性在智能系统中的基础作用。随着AI系统被部署到越来越复杂和开放的场景中，培养多样化的推理能力将成为构建真正 robust 智能体的关键。