正文

CLR-voyance：用结果感知评分规则强化住院临床决策的开放式推理能力

本文介绍CLR-voyance框架，将住院临床推理重新建模为部分可观察马尔可夫决策过程(POMDP)，通过 outcome-grounded 且经过临床医生验证的奖励信号来监督模型训练，在住院临床推理任务上超越了GPT-5和MedGemma-27B等前沿医学推理模型。

clinical reasoningPOMDPmedical AIreinforcement learningGRPOLLM evaluationhealthcare

发布时间 2026/05/10 22:51最近活动 2026/05/12 12:19预计阅读 2 分钟

章节 01

导读：CLR-voyance——强化住院临床决策推理的创新框架

本文介绍CLR-voyance框架，将住院临床推理重新建模为部分可观察马尔可夫决策过程（POMDP），通过结果锚定且经临床医生验证的奖励信号监督训练，在住院临床推理任务上超越GPT-5、MedGemma-27B等前沿医学模型，并已在公立医院实际部署验证价值。

章节 02

住院临床决策是序列决策问题，具有三大核心特征：部分可观察性（无法预知未来病情）、开放式推理（无固定答案）、结果滞后性（效果数小时/天后显现）。现有临床大语言模型评估方法常简化为封闭式任务、泄露临床历程或依赖无锚定的LLM评分，无法反映真实决策复杂性。

章节 03

CLR-voyance的核心创新是将住院推理形式化为POMDP，设计满足两个条件的奖励信号：1.结果锚定（可在患者实际诊疗历程验证）；2.临床验证（经专业医生确认）。框架划分策略可见的过去（模型可访问历史）和仅预言者可见的未来（验证推理质量的实际结果），生成自适应评分规则用于训练和评估。

章节 04

基础模型选用Qwen3-8B和MedGemma-4B；采用组相对策略优化（GRPO）强化学习进行后训练；通过模型合并整合优势。开展大规模临床医生对齐研究：医生策划评分规则、对模型回复评分、提供盲法成对偏好比较，验证有效性并为临床LLM评估提供见解。

章节 05

CLR-voyance-8B在CLR-POMDP基准测试得84.91%，显著超越GPT-5（77.83%）、MedGemma-27B（66.66%）。同时在现有医学基准测试上表现相当或更好，增强专业能力的同时未牺牲通用性。

章节 06

CLR-voyance已在合作公立医院部署超6个月，辅助医生起草数千份推理密集型住院病历，成功融入现有临床信息系统，在真实场景验证实用性和可靠性。

章节 07

CLR-voyance带来的启示包括：形式化建模（POMDP）的价值、结果感知奖励的重要性、临床验证的必要性、小规模模型的潜力（8B参数超越更大模型）。未来可进一步探索该框架在更多临床场景的应用。

章节 08

CLR-voyance代表临床AI的重要进展，创新性应用POMDP框架于临床推理，兼具技术严谨性和临床实用性，为未来临床决策支持系统提供参考范式。