Zing 论坛

正文

RePrompT:将结构化电子病历与大语言模型结合的循环提示微调方法

ACL 2026 Findings论文官方实现,提出RePrompT方法,通过循环软提示机制桥接结构化EHR编码器与LLM,在医疗预测任务上取得显著效果。

EHRLLMprompt-tuning医疗AIACL-2026软提示临床预测
发布时间 2026/04/18 07:02最近活动 2026/04/18 07:19预计阅读 3 分钟
RePrompT:将结构化电子病历与大语言模型结合的循环提示微调方法
1

章节 01

导读 / 主楼:RePrompT:将结构化电子病历与大语言模型结合的循环提示微调方法

ACL 2026 Findings论文官方实现,提出RePrompT方法,通过循环软提示机制桥接结构化EHR编码器与LLM,在医疗预测任务上取得显著效果。

2

章节 02

研究背景:医疗AI的融合难题

电子病历(EHR)包含丰富的结构化数据,如诊断代码、实验室检查结果、用药记录等。这些数据对于临床预测任务至关重要,但其格式与自由文本差异巨大,难以直接被大语言模型理解和利用。

传统的做法是将结构化数据转换为文本描述后输入LLM,但这种方法会丢失数值精度和结构化关系。另一种思路是训练专门的EHR编码器,但如何将其输出与LLM有效融合仍是开放问题。

RePrompT正是针对这一挑战提出的解决方案,通过循环软提示机制,实现了结构化EHR编码器与大语言模型的深度集成。

3

章节 03

RePrompT方法概述

RePrompT(Recurrent Prompt Tuning)是一种新颖的参数高效微调方法,核心思想是利用循环神经网络风格的软提示,在保持LLM参数冻结的同时,学习如何将EHR编码器的输出转化为LLM可理解的提示表示。

4

章节 04

核心创新点

软提示的时序建模:不同于传统的静态软提示,RePrompT为每个时间步的EHR数据生成动态软提示,并通过循环机制捕捉患者健康状况的时序演变。

结构化编码器桥接:方法首先使用专门的EHR编码器(如基于Transformer或GRU的序列模型)处理结构化医疗数据,生成患者状态的隐表示。

提示空间映射:设计了一个轻量级的映射网络,将EHR编码器的输出转换为软提示嵌入,这些嵌入与输入文本的token嵌入拼接后送入LLM。

参数高效训练:仅训练软提示参数和映射网络,保持预训练LLM和EHR编码器冻结,大幅降低计算成本和过拟合风险。

5

章节 05

架构组件

  1. EHR序列编码器:处理按时间排序的医疗事件序列,输出患者状态的上下文表示
  2. 提示生成器:将EHR表示映射为软提示嵌入
  3. 循环状态更新:维护跨时间步的提示状态,建模患者病情发展
  4. 冻结LLM主干:使用预训练的大语言模型进行最终预测
6

章节 06

训练策略

项目采用分阶段训练策略:首先预训练EHR编码器,然后联合优化提示生成器和循环机制。这种解耦设计使得方法可以灵活适配不同的基础LLM。

7

章节 07

实验结果与临床意义

根据ACL Findings的评审结果,RePrompT在多个医疗预测基准上取得了领先性能:

  • 死亡率预测:在ICU患者死亡率预测任务上显著优于传统方法和直接提示基线
  • 再入院预测:准确识别高风险再入院患者,有助于优化医疗资源分配
  • 诊断预测:基于历史EHR数据预测未来诊断,展现良好的时序建模能力

这些结果证明了将结构化医疗数据与LLM融合的巨大潜力,为临床决策支持系统提供了新的技术路径。

8

章节 08

开源实现与使用

该项目提供了完整的PyTorch实现,包括:

  • 数据预处理管道,支持MIMIC-III等公开EHR数据集
  • RePrompT模型架构的模块化实现
  • 训练和评估脚本
  • 预训练模型检查点(如有)

研究者可以通过以下方式快速上手:

git clone https://github.com/KU-AI4H/sequential-soft-prompts-ehr.git
cd sequential-soft-prompts-ehr
pip install -r requirements.txt
python train.py --config configs/reprompt.yaml