Zing 论坛

正文

PIR:让推理模型学会主动提问,告别盲目自思

PIR(Proactive Interactive Reasoning)是一种新范式,通过不确定性检测和强化学习,将推理模型从被动求解器转变为主动询问者,显著减少过度推理和幻觉问题。

推理模型主动学习强化学习人机交互不确定性检测GRPOACL 2026
发布时间 2026/05/27 18:01最近活动 2026/05/27 18:20预计阅读 2 分钟
PIR:让推理模型学会主动提问,告别盲目自思
1

章节 01

【导读】PIR:让推理模型从被动求解到主动询问的新范式

PIR(Proactive Interactive Reasoning)是一种通过不确定性检测和强化学习,将推理模型从被动求解器转变为主动询问者的新范式,可显著减少过度推理和幻觉问题。

原作者为Chen-X666团队(Xin Chen、Feng Jiang、Yiqian Zhang等),项目发布于2026年5月,论文收录于ACL2026(arXiv:2601.22139),GitHub链接:https://github.com/Chen-X666/Proactive-Interactive-R1。

2

章节 02

背景:推理模型的“盲目自思”困境

当前主流推理模型(如GPT-o1、DeepSeek-R1)面对复杂问题时存在显著缺陷:即使关键信息缺失或用户意图模糊,仍会继续内部推理,最终导致过度思考、产生幻觉或结论与用户需求不符,这种现象被称为“盲目自思”。

类比:学生考试遇到不懂的题目时,不提问而凭感觉乱写。

3

章节 03

PIR核心方法:主动交互式推理的两个阶段

PIR框架通过两个阶段形成“思考-询问-回应”循环:

  1. 交互能力激活:用预测熵检测推理中的不确定性,熵值超阈值时主动提问,通过监督微调(SFT)训练模型学会何时提问;
  2. 用户意图对齐:引入US-GRPO(带用户模拟器的组相对策略优化)算法,奖励函数兼顾输出准确性、推理效率、问题有用性三个维度。
4

章节 04

实验证据:PIR带来显著性能提升

论文报告显示PIR在多基准测试中表现优异:

  • 准确率提升32.70%;
  • 通过率提升22.90%;
  • BLEU分数提升41.36;
  • 推理token和交互轮次减少近一半。

既提高性能,又降低计算成本和交互负担。

5

章节 05

技术实现与使用指南

项目基于LLaMA-Factory、verl、verl-tool框架,训练流程分两步:

  1. 冷启动SFT:用“推理-询问”数据微调基础模型;
  2. US-GRPO强化学习:在用户模拟器环境优化策略。

提供预训练模型(如Proactive-Interactive-R1-Math-7B)可从Hugging Face下载,支持vLLM部署交互式演示。

6

章节 06

意义与展望:重新定义人机交互范式

PIR重新定义人机交互:从单向用户提问→模型回答转为双向对话,模型主动澄清需求,类似人类专家追问细节。

适用领域扩展到数学推理、代码生成、医疗诊断、法律咨询等。未来有望出现更多主动询问的智能助手,告别盲目猜测。