# CLR-voyance：用结果感知评分规则强化住院临床决策的开放式推理能力

> 本文介绍CLR-voyance框架，将住院临床推理重新建模为部分可观察马尔可夫决策过程(POMDP)，通过 outcome-grounded 且经过临床医生验证的奖励信号来监督模型训练，在住院临床推理任务上超越了GPT-5和MedGemma-27B等前沿医学推理模型。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-10T14:51:31.000Z
- 最近活动: 2026-05-12T04:19:05.841Z
- 热度: 120.5
- 关键词: clinical reasoning, POMDP, medical AI, reinforcement learning, GRPO, LLM evaluation, healthcare
- 页面链接: https://www.zingnex.cn/forum/thread/clr-voyance
- Canonical: https://www.zingnex.cn/forum/thread/clr-voyance
- Markdown 来源: ingested_event

---

## 背景：住院临床决策的独特挑战

临床推理与一般的问答任务有着本质的不同。当医生面对一位住院患者时，他们面临的是一个**序列决策问题**：在信息不完全可见的情况下，根据目前已知的入院信息，决定下一步的诊疗动作，而这些动作的下游后果在当时还无法完全预知。

这种决策过程具有三个核心特征：

- **部分可观察性（Partial Observability）**：医生只能看到患者到目前为止的诊疗历程，无法预知未来的病情发展
- **开放式推理（Open-Ended Reasoning）**：不像选择题有固定答案，临床决策需要在复杂情境下进行多步推理
- **结果滞后性（Delayed Outcomes）**：当前决策的效果往往要在数小时甚至数天后才能显现

然而，现有的临床大语言模型评估方法和强化学习奖励信号往往将这一复杂过程简化为封闭式的检索任务、临床历程泄露，或者缺乏锚定的LLM-as-Judge评分。这些简化方法无法真实反映临床决策的复杂性。

## CLR-voyance框架的核心创新

研究团队提出的CLR-voyance框架从根本上重新思考了住院临床推理的建模方式。其核心创新在于将住院推理重新形式化为**部分可观察马尔可夫决策过程（POMDP）**，并设计了同时满足两个关键条件的奖励信号：

1. **Outcome-Grounded（结果锚定）**：奖励必须能够在患者的实际诊疗历程中得到验证
2. **Clinician-Validated（临床验证）**：奖励标准必须经过专业临床医生的确认和认可

### CLR-POMDP：临床推理的形式化定义

CLR-voyance将成功的患者诊疗历程划分为两个部分：

- **Policy-Visible Past（策略可见的过去）**：模型可以访问的历史诊疗信息
- **Oracle-Only Future（仅预言者可见的未来）**：用于验证推理质量的实际病情发展结果

基于这种划分，一个预言者大语言模型会生成特定病例的查询-答案对，以及首个用于临床推理的自适应评分规则（Adaptive Rubric）。这些评分规则既可用于模型的后训练（Post-Training），也可用于评估。

## 技术实现：从理论到实践

### 模型训练流程

研究团队采用了一系列先进的技术手段来实现CLR-voyance：

**基础模型选择**：选用Qwen3-8B和MedGemma-4B作为基础模型，这两个模型在医学领域已有一定的先验知识。

**GRPO强化学习**：使用组相对策略优化（Group Relative Policy Optimization）进行后训练。GRPO是一种无需参考模型的强化学习算法，特别适合大语言模型的对齐训练。

**模型合并（Model Merging）**：在GRPO训练后，通过模型合并技术整合不同训练阶段的优势，既保留了专业临床推理能力，又维持了通用能力。

### 大规模临床对齐研究

为了确保评估的临床意义，研究团队开展了一项大规模的临床医生对齐研究：

- 临床医生为每个病例策划特定的评分规则
- 医生对候选模型回复进行评分
- 提供盲法成对偏好比较，评估模型推理质量

这项研究不仅验证了CLR-voyance的有效性，还为临床LLM-as-Judge和临床偏好模型选择提供了宝贵见解。

## 实验结果：超越前沿医学模型

CLR-voyance-8B在CLR-POMDP基准测试上取得了**84.91%**的成绩，显著超越了多个前沿医学推理模型：

| 模型 | CLR-POMDP得分 |
|------|--------------|
| CLR-voyance-8B | **84.91%** |
| GPT-5 | 77.83% |
| MedGemma-27B | 66.66% |

值得注意的是，CLR-voyance-8B不仅在专业临床推理任务上表现优异，在现有医学基准测试上也取得了相当或更好的性能。这表明该框架成功地增强了专业能力，同时没有牺牲通用性。

## 实际部署与临床价值

CLR-voyance已经在一所合作公立医院部署了超过6个月，实际应用成果令人瞩目：

- **数千份推理密集型住院病历**：系统辅助医生起草了大量需要复杂推理的住院记录
- **真实临床环境验证**：在实际医疗场景中证明了框架的实用性和可靠性
- **临床工作流程整合**：成功融入现有的临床信息系统

这一实际部署经验表明，CLR-voyance不仅在学术基准上表现优异，更能在真实的医疗环境中产生实际价值。

## 技术启示与未来方向

CLR-voyance的成功为临床AI领域提供了几个重要启示：

**形式化建模的价值**：将临床推理形式化为POMDP，使得复杂的临床决策过程可以被系统地研究和优化。

**Outcome-Aware奖励的重要性**：奖励信号必须与可验证的结果相关联，而非仅依赖模型的自我评估。

**临床验证的必要性**：任何临床AI系统都必须经过专业医生的验证，确保其符合临床实践的实际情况。

**小规模模型的潜力**：CLR-voyance-8B超越了参数规模大得多的模型，说明架构和训练方法的重要性不亚于模型规模。

## 结语

CLR-voyance代表了临床AI领域的一个重要进展。它不仅在技术上创新性地将POMDP框架应用于临床推理，更在实际部署中证明了其价值。随着大语言模型在医疗领域的应用日益广泛，像CLR-voyance这样兼顾技术严谨性和临床实用性的框架，将为未来的临床决策支持系统提供重要的参考范式。