Zing 论坛

正文

CLR-voyance:用结果感知评分规则强化住院临床决策的开放式推理能力

本文介绍CLR-voyance框架,将住院临床推理重新建模为部分可观察马尔可夫决策过程(POMDP),通过 outcome-grounded 且经过临床医生验证的奖励信号来监督模型训练,在住院临床推理任务上超越了GPT-5和MedGemma-27B等前沿医学推理模型。

clinical reasoningPOMDPmedical AIreinforcement learningGRPOLLM evaluationhealthcare
发布时间 2026/05/10 22:51最近活动 2026/05/12 12:19预计阅读 2 分钟
CLR-voyance:用结果感知评分规则强化住院临床决策的开放式推理能力
1

章节 01

导读:CLR-voyance——强化住院临床决策推理的创新框架

本文介绍CLR-voyance框架,将住院临床推理重新建模为部分可观察马尔可夫决策过程(POMDP),通过结果锚定且经临床医生验证的奖励信号监督训练,在住院临床推理任务上超越GPT-5、MedGemma-27B等前沿医学模型,并已在公立医院实际部署验证价值。

2

章节 02

背景:住院临床决策的独特挑战与现有方法局限

住院临床决策是序列决策问题,具有三大核心特征:部分可观察性(无法预知未来病情)、开放式推理(无固定答案)、结果滞后性(效果数小时/天后显现)。现有临床大语言模型评估方法常简化为封闭式任务、泄露临床历程或依赖无锚定的LLM评分,无法反映真实决策复杂性。

3

章节 03

框架核心:POMDP建模与结果锚定奖励设计

CLR-voyance的核心创新是将住院推理形式化为POMDP,设计满足两个条件的奖励信号:1.结果锚定(可在患者实际诊疗历程验证);2.临床验证(经专业医生确认)。框架划分策略可见的过去(模型可访问历史)和仅预言者可见的未来(验证推理质量的实际结果),生成自适应评分规则用于训练和评估。

4

章节 04

技术实现:训练流程与临床对齐研究

基础模型选用Qwen3-8B和MedGemma-4B;采用组相对策略优化(GRPO)强化学习进行后训练;通过模型合并整合优势。开展大规模临床医生对齐研究:医生策划评分规则、对模型回复评分、提供盲法成对偏好比较,验证有效性并为临床LLM评估提供见解。

5

章节 05

实验结果:超越前沿医学模型的性能表现

CLR-voyance-8B在CLR-POMDP基准测试得84.91%,显著超越GPT-5(77.83%)、MedGemma-27B(66.66%)。同时在现有医学基准测试上表现相当或更好,增强专业能力的同时未牺牲通用性。

6

章节 06

实际部署:真实临床环境的应用成效

CLR-voyance已在合作公立医院部署超6个月,辅助医生起草数千份推理密集型住院病历,成功融入现有临床信息系统,在真实场景验证实用性和可靠性。

7

章节 07

技术启示:临床AI发展的关键方向

CLR-voyance带来的启示包括:形式化建模(POMDP)的价值、结果感知奖励的重要性、临床验证的必要性、小规模模型的潜力(8B参数超越更大模型)。未来可进一步探索该框架在更多临床场景的应用。

8

章节 08

结语:临床AI领域的重要进展

CLR-voyance代表临床AI的重要进展,创新性应用POMDP框架于临床推理,兼具技术严谨性和临床实用性,为未来临床决策支持系统提供参考范式。