章节 01
【导读】规模化程序知识检索:Reasoning Memory提升推理能力的新范式
Reasoning Memory是一种针对推理模型的检索增强生成框架,通过从3200万条程序性知识条目中检索相关子程序,让模型复用历史推理经验,在数学、科学和代码任务上实现显著性能提升。其核心在于解决现有测试时扩展方法孤立处理问题、无法复用程序性知识的局限,为推理模型带来范式转变。
正文
Reasoning Memory通过从3200万条程序性知识条目中检索相关子程序,让推理模型能够复用历史推理经验,在数学、科学和代码任务上实现显著提升。
章节 01
Reasoning Memory是一种针对推理模型的检索增强生成框架,通过从3200万条程序性知识条目中检索相关子程序,让模型复用历史推理经验,在数学、科学和代码任务上实现显著性能提升。其核心在于解决现有测试时扩展方法孤立处理问题、无法复用程序性知识的局限,为推理模型带来范式转变。
章节 02
测试时扩展(如思维链、多次采样)可提升推理模型准确率,但存在根本性局限:每个问题孤立处理,无法系统复用历史类似问题的经验,尤其忽视了程序性知识(如何分解问题、选择策略、验证回溯等元认知技能),导致模型需从零构建推理过程。
章节 03
Reasoning Memory专注于检索复用程序性知识(“如何做”的知识,如问题分解、策略选择等)。技术实现包括:1. 轨迹分解:将现有推理轨迹拆分为3200万条“子问题-子程序”对构成知识库;2. 推理时检索:通过子问题显式化→相关子程序检索→程序性先验推理三步,模拟人类专家复用策略的推理方式。
章节 04
在数学、科学、代码等六个基准测试中,Reasoning Memory一致优于传统文档RAG、完整轨迹RAG等对比方法:比无检索方法提升高达19.2%,比最强计算匹配基线平均提升7.9%。消融研究表明成功关键在于:源轨迹的广泛程序性覆盖、子问题-子程序的分解与检索设计。
章节 05
启示:从“记忆事实”转向“学习解决问题”,拓展检索增强至策略/方法/验证规则等领域,受人类认知启发(专家依赖程序性知识)。应用价值:提升推理效率(避免重复探索)、增强可解释性(追溯决策依据)、支持持续改进(知识库随新问题扩展形成闭环)。
章节 06
当前局限:知识库构建成本高、检索精度依赖设计、领域特异性强。未来方向:动态知识库更新(自动提取新推理中的程序性知识)、跨领域迁移、检索与推理深度融合、构建层次化程序知识体系。