章节 01
RASPRef框架:检索增强自监督提示优化提升大模型推理能力
本文提出RASPRef(检索增强自监督提示优化框架),针对推理模型的提示敏感性难题,通过检索相关示例和历史推理轨迹,利用多样本一致性、验证器反馈、模型自批判信号迭代优化提示词,无需人工标注即可显著提升数学推理表现。该框架解决了人工提示工程耗时、现有方法依赖标注成本高的问题,为推理模型的实际应用提供新方案。
正文
RASPRef通过检索相关示例和历史推理轨迹,利用多样本一致性、验证器反馈和模型自批判信号迭代优化提示词,无需人工标注即可显著提升推理模型的数学推理表现。
章节 01
本文提出RASPRef(检索增强自监督提示优化框架),针对推理模型的提示敏感性难题,通过检索相关示例和历史推理轨迹,利用多样本一致性、验证器反馈、模型自批判信号迭代优化提示词,无需人工标注即可显著提升数学推理表现。该框架解决了人工提示工程耗时、现有方法依赖标注成本高的问题,为推理模型的实际应用提供新方案。
章节 02
近年来,DeepSeek R1、OpenAI o1等推理模型在结构化推理任务中表现出色,但对提示词表述高度敏感。人工提示工程手动迭代、耗时耗力且难以扩展;现有提示优化方法依赖人工标注或任务特定监督信号,成本高且泛化性差。因此,开发无需人工标注的自监督提示优化方法具有重要价值。
章节 03
RASPRef包含三个核心组件:
章节 04
在GSM8K数学推理任务上,RASPRef优化提示显著提升模型性能:
章节 05
影响RASPRef效果的核心因素包括:
章节 06
RASPRef研究带来三点启示:
章节 07
RASPRef存在局限性:仅评估数学推理任务,依赖可验证任务,优化计算成本高。未来方向: