正文

SCPRM：面向知识图谱问答的模式感知累积过程奖励模型

针对大模型在知识图谱推理中的过程奖励评估难题，本文提出SCPRM模型，通过引入模式距离和累积奖励机制，有效解决了风险补偿效应问题，在医疗和法律知识图谱问答任务上平均提升1.18%的Hits@k指标。

知识图谱问答过程奖励模型累积奖励模式感知蒙特卡洛树搜索多跳推理医疗知识图谱法律AI

发布时间 2026/05/05 00:56最近活动 2026/05/05 12:20预计阅读 1 分钟

章节 01

【导读】SCPRM：面向知识图谱问答的模式感知累积过程奖励模型

本文提出SCPRM模型，针对大模型在知识图谱推理中的过程奖励评估难题，引入模式距离和累积奖励机制解决风险补偿效应问题，在医疗和法律知识图谱问答任务上平均提升1.18%的Hits@k指标。

章节 02

大模型推理评估中，传统结果奖励模型无法指导中间步骤；现有过程奖励模型存在风险补偿效应（错误中间步骤若后续纠正仍获高奖励）。知识图谱问答（KGQA）具多路径特性、高风险敏感性（医疗/法律领域错误路径后果严重）、模式约束等特殊挑战。

章节 03

SCPRM含两大创新：1.累积奖励机制：基于推理前缀条件评估，考虑步骤与历史连贯性；2.模式距离感知：衡量步骤与查询隐式目标的模式符合度，区分正确绕行与错误偏离。将SCPRM集成到蒙特卡洛树搜索（MCTS）框架，形成SCPRM-MCTS方法指导搜索过程。

章节 04

在医疗、法律KG及通用CWQ数据集评估：Hits@k指标平均提升1.18%；风险敏感推理场景优势显著，减少高风险错误步骤比例，提升实际应用可靠性。

章节 05

技术贡献：精细化过程奖励评估、利用模式知识优化推理、为风险意识强化学习提供路径。启示：构建KGQA系统需重视推理路径质量，高风险领域引入过程评估机制可提升可信度与实用性。