正文

PIR：让推理模型学会主动提问，告别盲目自思

PIR（Proactive Interactive Reasoning）是一种新范式，通过不确定性检测和强化学习，将推理模型从被动求解器转变为主动询问者，显著减少过度推理和幻觉问题。

推理模型主动学习强化学习人机交互不确定性检测GRPOACL 2026

发布时间 2026/05/27 18:01最近活动 2026/05/27 18:20预计阅读 2 分钟

章节 01

【导读】PIR：让推理模型从被动求解到主动询问的新范式

PIR（Proactive Interactive Reasoning）是一种通过不确定性检测和强化学习，将推理模型从被动求解器转变为主动询问者的新范式，可显著减少过度推理和幻觉问题。

原作者为Chen-X666团队（Xin Chen、Feng Jiang、Yiqian Zhang等），项目发布于2026年5月，论文收录于ACL2026（arXiv:2601.22139），GitHub链接：https://github.com/Chen-X666/Proactive-Interactive-R1。

章节 02

当前主流推理模型（如GPT-o1、DeepSeek-R1）面对复杂问题时存在显著缺陷：即使关键信息缺失或用户意图模糊，仍会继续内部推理，最终导致过度思考、产生幻觉或结论与用户需求不符，这种现象被称为“盲目自思”。

类比：学生考试遇到不懂的题目时，不提问而凭感觉乱写。

章节 03

PIR框架通过两个阶段形成“思考-询问-回应”循环：

章节 04

论文报告显示PIR在多基准测试中表现优异：

既提高性能，又降低计算成本和交互负担。

章节 05

项目基于LLaMA-Factory、verl、verl-tool框架，训练流程分两步：

提供预训练模型（如Proactive-Interactive-R1-Math-7B）可从Hugging Face下载，支持vLLM部署交互式演示。

章节 06

PIR重新定义人机交互：从单向用户提问→模型回答转为双向对话，模型主动澄清需求，类似人类专家追问细节。

适用领域扩展到数学推理、代码生成、医疗诊断、法律咨询等。未来有望出现更多主动询问的智能助手，告别盲目猜测。