Zing 论坛

正文

JTS框架:弥合推理模型在信息不足时的检测与弃权鸿沟

大型推理模型在面对信息不足的问题时,往往能检测到问题的不完整性,却仍会继续推理并给出无支持的答案。本文提出的Judge-Then-Solve框架通过轨迹级推理控制,训练模型在生成解决方案前先做出可回答性承诺,有效提升了弃权可靠性。

推理模型信息不足弃权机制检测-弃权鸿沟强化学习医疗AI推理控制Judge-Then-Solve
发布时间 2026/05/28 10:19最近活动 2026/05/28 10:23预计阅读 3 分钟
JTS框架:弥合推理模型在信息不足时的检测与弃权鸿沟
1

章节 01

【导读】JTS框架:弥合推理模型的检测-弃权鸿沟

原作者/维护者:arXiv authors 来源平台:arxiv 原始标题:Bridging the Detection-to-Abstention Gap in Reasoning Models under Insufficient Information 原始链接:http://arxiv.org/abs/2605.28070v1 发布时间:2026-05-28

大型推理模型在信息不足时存在"检测到却不行动"的问题——即能识别信息缺失但仍强行推理给出无支持答案,这一现象被称为检测-弃权鸿沟。本文提出的Judge-Then-Solve(JTS)框架通过轨迹级推理控制,训练模型先判断可回答性再生成解决方案,有效提升了弃权可靠性,为高风险场景(如医疗AI)的安全部署提供支撑。

2

章节 02

研究背景:推理模型的检测-弃权鸿沟问题

大型推理模型处理复杂问题能力突出,但面对信息不足的查询时,存在"检测到信息缺失却不弃权"的隐蔽缺陷。研究团队将此现象形式化为检测-弃权鸿沟,在医疗AI等高危领域尤为危险:例如诊断AI明知病历不足却仍给出诊断,可能导致灾难性后果。

3

章节 03

现有方法的局限分析

传统方法将弃权视为答案风格(输出"不知道"等),存在三大问题:

  1. 被动响应:仅在最后阶段选择弃权,无法主动控制推理过程;
  2. 推理浪费:即使意识到信息不足仍完成推理,浪费计算资源;
  3. 风险累积:继续推理时基于缺失前提做假设,放大错误风险。
4

章节 04

JTS框架:先判断后解决的核心机制

JTS是轨迹级推理控制框架,核心为"先判断后解决": Judge阶段:生成解决方案前,模型需显式判断问题是否具备足够信息回答,若不足则立即终止推理; Solve阶段:仅通过判断后才生成解决方案。

训练策略包括:

  • 监督热身:通过监督学习让模型熟悉可回答性判断;
  • 缺失前提强化学习:用一致性奖励(判断与行为一致)和长度塑形奖励(尽早终止无法回答的推理)训练模型主动弃权。
5

章节 05

实验结果:弃权可靠性与效率双提升

在密集型和MoE模型上的实验显示:

  1. 弃权可靠性大幅提升:Abstention@Detection(A@D)指标接近饱和,模型能基于检测结果采取弃权行动;
  2. 推理效率优化:早期终止无法回答的轨迹,减少不必要计算;
  3. 推理行为改善:在困难但可回答问题上减少无成效反思,推理更直接高效。
6

章节 06

技术意义与潜在应用场景

技术意义

  • 提升安全性:高风险场景中模型能明确弃权,降低错误决策风险;
  • 节约计算资源:早期终止无效推理,适合大规模部署;
  • 增强可解释性:显式判断机制让决策过程更透明。

潜在应用场景

  • 医疗诊断辅助:提示补充病历信息而非给出不确定诊断;
  • 法律咨询:引导用户补充背景信息;
  • 科研辅助:识别数据缺失并建议补充实验;
  • 金融风控:拒绝信息不足的风险评估。
7

章节 07

局限性与未来研究方向

JTS的局限性及未来探索方向:

  1. 提升判断准确性:避免误判可回答问题为不可回答;
  2. 多语言扩展:验证非英语场景有效性;
  3. 与其他安全机制结合:探索与Constitutional AI、RLHF的协同;
  4. 动态阈值调整:根据场景动态调整可回答性判断阈值。
8

章节 08

结论:JTS框架的核心贡献

JTS框架通过将弃权重新定义为控制决策而非答案风格,有效弥合了推理模型的检测-弃权鸿沟。实验证明其显著提升了可靠弃权能力、优化推理效率并改善推理行为,为高风险场景的安全部署提供技术支撑,也为构建更可靠可控的AI系统指明方向。