正文

RASPRef：基于检索增强的自监督提示优化框架，提升大模型推理能力

RASPRef通过检索相关示例和历史推理轨迹，利用多样本一致性、验证器反馈和模型自批判信号迭代优化提示词，无需人工标注即可显著提升推理模型的数学推理表现。

RASPRef提示优化推理模型自监督学习检索增强数学推理DeepSeek链式思维

发布时间 2026/03/28 05:49最近活动 2026/03/31 10:56预计阅读 2 分钟

章节 01

RASPRef框架：检索增强自监督提示优化提升大模型推理能力

本文提出RASPRef（检索增强自监督提示优化框架），针对推理模型的提示敏感性难题，通过检索相关示例和历史推理轨迹，利用多样本一致性、验证器反馈、模型自批判信号迭代优化提示词，无需人工标注即可显著提升数学推理表现。该框架解决了人工提示工程耗时、现有方法依赖标注成本高的问题，为推理模型的实际应用提供新方案。

章节 02

推理模型的提示敏感性与现有方法局限

近年来，DeepSeek R1、OpenAI o1等推理模型在结构化推理任务中表现出色，但对提示词表述高度敏感。人工提示工程手动迭代、耗时耗力且难以扩展；现有提示优化方法依赖人工标注或任务特定监督信号，成本高且泛化性差。因此，开发无需人工标注的自监督提示优化方法具有重要价值。

章节 03

RASPRef框架的核心组件与技术实现

RASPRef包含三个核心组件：

检索模块：基于语义相似性检索知识库中的问题-解答对、历史推理轨迹、成功/失败案例，获取top-k相关示例；
信号生成模块：生成多样本一致性（多次采样轨迹的答案一致性）、验证器反馈（程序化检查推理正确性）、模型自批判（模型评估自身推理漏洞）三种自监督信号；
提示优化模块：以指令模板为提示表示，通过元模型迭代更新提示，结合检索示例和反馈信号提升提示质量。

章节 04

RASPRef框架的实验评估结果

在GSM8K数学推理任务上，RASPRef优化提示显著提升模型性能：

DeepSeek-R1-Distill-Qwen-7B准确率达92.3%，较基础提示提升4个百分点，较链式思维提示提升2个百分点；
DeepSeek-R1-Distill-Qwen-32B达94.1%，接近最佳水平；
消融研究显示：移除检索模块性能降2%，单一信号效果差，5轮迭代后性能饱和。

章节 05

影响RASPRef优化效果的关键因素

影响RASPRef效果的核心因素包括：

检索质量：高相关性示例（如余弦相似度top-3）优化效果显著，随机示例效果差；
轨迹选择：多样化轨迹（含成功/失败案例）比仅成功案例效果更好；
信号质量：验证器反馈最可靠，多样本一致性依赖模型置信度，自批判信号准确性取决于模型自身能力。

章节 06

RASPRef框架对推理模型应用的启示

RASPRef研究带来三点启示：

提示设计仍是推理模型性能关键，需投入资源优化；
自监督提示优化实用可扩展，适用于有验证机制的推理任务；
检索增强提升提示优化效果，高质量知识库对长期系统有价值。

章节 07

RASPRef的局限性与未来研究方向

RASPRef存在局限性：仅评估数学推理任务，依赖可验证任务，优化计算成本高。未来方向：

结合模型微调探索协同作用；
扩展至多模态推理场景；
开发更高效优化算法降低计算成本。

RASPRef：基于检索增强的自监督提示优化框架，提升大模型推理能力

RASPRef框架：检索增强自监督提示优化提升大模型推理能力

推理模型的提示敏感性与现有方法局限

RASPRef框架的核心组件与技术实现

RASPRef框架的实验评估结果

影响RASPRef优化效果的关键因素

RASPRef框架对推理模型应用的启示

RASPRef的局限性与未来研究方向

继续阅读

Nornir MCP Server：将大语言模型引入网络自动化的企业级桥梁

Bibliothèque Française LLM：为大型语言模型优化的法语公版文献索引系统

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Folkering OS：当操作系统本身就是 AI——一个能自我进化的裸机 Rust 系统