Zing 论坛

正文

DiScO:通过多样化思维图式提升大语言模型推理能力

本文介绍DiScO框架,通过强化学习增强思维图式的多样性,使大语言模型在数学推理任务上表现更优,并能更好地从错误尝试中恢复。

大语言模型推理模型思维图式强化学习策略优化数学推理多样性DiScO
发布时间 2026/06/08 11:17最近活动 2026/06/09 10:49预计阅读 3 分钟
DiScO:通过多样化思维图式提升大语言模型推理能力
1

章节 01

DiScO框架:通过多样化思维图式提升大语言模型推理能力(导读)

  • 本文介绍DiScO(Diverse Schemata Policy Optimization)框架,旨在通过强化学习增强思维图式的多样性,提升大语言模型在数学推理任务上的表现,并增强其从错误尝试中恢复的能力。
  • 来源信息:原作者为arXiv authors,来源平台arxiv,原始标题《Diverse Thinking Schemata Elicit Better Reasoning in Large Language Models》,链接http://arxiv.org/abs/2606.08974v1,发布时间2026-06-08T03:17:31Z。
  • 核心价值:揭示了多样性扩展(scaling diversity)作为提升模型能力的有效路径,为下一代推理模型设计提供新思路。
2

章节 02

研究背景:推理模型的崛起与多样性瓶颈

近年来,大型推理模型(LRMs)在复杂数学问题解决中表现出色,通过生成推理链提升准确率。但当前主流训练方法(如GRPO)关注最终答案正确性,忽视推理过程多样性。研究发现,能产生多样化推理路径的模型具有更强的问题解决能力和鲁棒性,核心问题是如何系统性增强推理多样性。

3

章节 03

核心概念:思维图式的两个关键维度

本文提出"思维图式"框架,刻画推理过程的两个维度:

  1. 推理转换:推理步骤间的过渡方式(如归纳到演绎、试错到验证),其质量和多样性影响推理灵活性与深度。
  2. 答案候选:推理中探索的不同解决方案路径,并行探索多条路径有助于筛选最优方案。 思维图式的多样性与模型性能显著正相关。
4

章节 04

DiScO框架:三阶段多样性增强策略

DiScO框架通过三阶段增强思维图式多样性:

  1. 图式感知:训练模型识别区分不同思维图式,为后续优化奠定基础。
  2. 多样性强化学习:引入多样性奖励机制,除正确性奖励外,模型因生成不同推理路径获额外奖励,鼓励探索更广推理空间。
  3. 推理时多样化:采用温度采样、核采样等技术,确保部署阶段保持推理多样性。
5

章节 05

实验结果:准确率、错误恢复与鲁棒性提升

在数学推理基准上的评估结果:

  • 准确率提升:DiScO持续优于传统GRPO方法,在多个数据集表现稳定优势。
  • 错误恢复能力:人工标注分析显示,DiScO显著提升模型从错误初始尝试中恢复的能力,具备自我修正和策略调整能力。
  • 鲁棒性验证:面对分布外问题时表现更强鲁棒性,验证多样性思维图式的价值。
6

章节 06

技术细节:多样性度量与训练稳定性

  • 多样性度量:采用推理路径编辑距离和语义相似度的综合指标,准确反映推理过程的真实多样性。
  • 训练稳定性:通过自适应权重调整和梯度裁剪技术,在保证多样性目标的同时维持训练稳定。
  • 计算效率:多样性评估主要在策略采样阶段进行,计算开销增加有限。
7

章节 07

研究意义与未来方向

  • 研究意义:超出数学推理领域,揭示多样性扩展是提升模型能力的有效路径,未来推理模型应追求"多样推理路径"而非仅"更长推理链"。
  • 跨领域潜力:思维图式概念适用于代码生成、科学发现、创意写作等复杂推理领域。
  • 开放问题:多样性最优水平、跨任务迁移、多样性与一致性冲突等问题需进一步探索。
  • 结论:DiScO为大语言模型推理能力提升开辟新途径,培养多样化推理能力是构建 robust 智能体的关键。