Zing 论坛

正文

RASPRef:基于检索增强的自监督提示优化框架,提升大模型推理能力

RASPRef通过检索相关示例和历史推理轨迹,利用多样本一致性、验证器反馈和模型自批判信号迭代优化提示词,无需人工标注即可显著提升推理模型的数学推理表现。

RASPRef提示优化推理模型自监督学习检索增强数学推理DeepSeek链式思维
发布时间 2026/03/28 05:49最近活动 2026/03/31 10:56预计阅读 2 分钟
RASPRef:基于检索增强的自监督提示优化框架,提升大模型推理能力
1

章节 01

RASPRef框架:检索增强自监督提示优化提升大模型推理能力

本文提出RASPRef(检索增强自监督提示优化框架),针对推理模型的提示敏感性难题,通过检索相关示例和历史推理轨迹,利用多样本一致性、验证器反馈、模型自批判信号迭代优化提示词,无需人工标注即可显著提升数学推理表现。该框架解决了人工提示工程耗时、现有方法依赖标注成本高的问题,为推理模型的实际应用提供新方案。

2

章节 02

推理模型的提示敏感性与现有方法局限

近年来,DeepSeek R1、OpenAI o1等推理模型在结构化推理任务中表现出色,但对提示词表述高度敏感。人工提示工程手动迭代、耗时耗力且难以扩展;现有提示优化方法依赖人工标注或任务特定监督信号,成本高且泛化性差。因此,开发无需人工标注的自监督提示优化方法具有重要价值。

3

章节 03

RASPRef框架的核心组件与技术实现

RASPRef包含三个核心组件:

  1. 检索模块:基于语义相似性检索知识库中的问题-解答对、历史推理轨迹、成功/失败案例,获取top-k相关示例;
  2. 信号生成模块:生成多样本一致性(多次采样轨迹的答案一致性)、验证器反馈(程序化检查推理正确性)、模型自批判(模型评估自身推理漏洞)三种自监督信号;
  3. 提示优化模块:以指令模板为提示表示,通过元模型迭代更新提示,结合检索示例和反馈信号提升提示质量。
4

章节 04

RASPRef框架的实验评估结果

在GSM8K数学推理任务上,RASPRef优化提示显著提升模型性能:

  • DeepSeek-R1-Distill-Qwen-7B准确率达92.3%,较基础提示提升4个百分点,较链式思维提示提升2个百分点;
  • DeepSeek-R1-Distill-Qwen-32B达94.1%,接近最佳水平;
  • 消融研究显示:移除检索模块性能降2%,单一信号效果差,5轮迭代后性能饱和。
5

章节 05

影响RASPRef优化效果的关键因素

影响RASPRef效果的核心因素包括:

  1. 检索质量:高相关性示例(如余弦相似度top-3)优化效果显著,随机示例效果差;
  2. 轨迹选择:多样化轨迹(含成功/失败案例)比仅成功案例效果更好;
  3. 信号质量:验证器反馈最可靠,多样本一致性依赖模型置信度,自批判信号准确性取决于模型自身能力。
6

章节 06

RASPRef框架对推理模型应用的启示

RASPRef研究带来三点启示:

  1. 提示设计仍是推理模型性能关键,需投入资源优化;
  2. 自监督提示优化实用可扩展,适用于有验证机制的推理任务;
  3. 检索增强提升提示优化效果,高质量知识库对长期系统有价值。
7

章节 07

RASPRef的局限性与未来研究方向

RASPRef存在局限性:仅评估数学推理任务,依赖可验证任务,优化计算成本高。未来方向:

  1. 结合模型微调探索协同作用;
  2. 扩展至多模态推理场景;
  3. 开发更高效优化算法降低计算成本。