章节 01
导读:CLR-voyance——强化住院临床决策推理的创新框架
本文介绍CLR-voyance框架,将住院临床推理重新建模为部分可观察马尔可夫决策过程(POMDP),通过结果锚定且经临床医生验证的奖励信号监督训练,在住院临床推理任务上超越GPT-5、MedGemma-27B等前沿医学模型,并已在公立医院实际部署验证价值。
正文
本文介绍CLR-voyance框架,将住院临床推理重新建模为部分可观察马尔可夫决策过程(POMDP),通过 outcome-grounded 且经过临床医生验证的奖励信号来监督模型训练,在住院临床推理任务上超越了GPT-5和MedGemma-27B等前沿医学推理模型。
章节 01
本文介绍CLR-voyance框架,将住院临床推理重新建模为部分可观察马尔可夫决策过程(POMDP),通过结果锚定且经临床医生验证的奖励信号监督训练,在住院临床推理任务上超越GPT-5、MedGemma-27B等前沿医学模型,并已在公立医院实际部署验证价值。
章节 02
住院临床决策是序列决策问题,具有三大核心特征:部分可观察性(无法预知未来病情)、开放式推理(无固定答案)、结果滞后性(效果数小时/天后显现)。现有临床大语言模型评估方法常简化为封闭式任务、泄露临床历程或依赖无锚定的LLM评分,无法反映真实决策复杂性。
章节 03
CLR-voyance的核心创新是将住院推理形式化为POMDP,设计满足两个条件的奖励信号:1.结果锚定(可在患者实际诊疗历程验证);2.临床验证(经专业医生确认)。框架划分策略可见的过去(模型可访问历史)和仅预言者可见的未来(验证推理质量的实际结果),生成自适应评分规则用于训练和评估。
章节 04
基础模型选用Qwen3-8B和MedGemma-4B;采用组相对策略优化(GRPO)强化学习进行后训练;通过模型合并整合优势。开展大规模临床医生对齐研究:医生策划评分规则、对模型回复评分、提供盲法成对偏好比较,验证有效性并为临床LLM评估提供见解。
章节 05
CLR-voyance-8B在CLR-POMDP基准测试得84.91%,显著超越GPT-5(77.83%)、MedGemma-27B(66.66%)。同时在现有医学基准测试上表现相当或更好,增强专业能力的同时未牺牲通用性。
章节 06
CLR-voyance已在合作公立医院部署超6个月,辅助医生起草数千份推理密集型住院病历,成功融入现有临床信息系统,在真实场景验证实用性和可靠性。
章节 07
CLR-voyance带来的启示包括:形式化建模(POMDP)的价值、结果感知奖励的重要性、临床验证的必要性、小规模模型的潜力(8B参数超越更大模型)。未来可进一步探索该框架在更多临床场景的应用。
章节 08
CLR-voyance代表临床AI的重要进展,创新性应用POMDP框架于临床推理,兼具技术严谨性和临床实用性,为未来临床决策支持系统提供参考范式。