Zing 论坛

正文

医疗分诊大模型微调实战:基于Qwen3-1.7B的完整MLOps流水线

本文介绍了一个完整的医疗分诊大模型微调项目,使用Qwen3-1.7B基础模型,通过QLoRA进行监督微调(SFT),再经DPO对齐人类偏好,最终部署为vLLM+FastAPI推理服务。项目涵盖数据管道、训练、评估到CI/CD部署的全流程。

医疗AI大模型微调QLoRADPOQwen3MLOpsvLLMFastAPI医疗分诊
发布时间 2026/05/26 17:14最近活动 2026/05/26 17:21预计阅读 3 分钟
医疗分诊大模型微调实战:基于Qwen3-1.7B的完整MLOps流水线
1

章节 01

导读 / 主楼:医疗分诊大模型微调实战:基于Qwen3-1.7B的完整MLOps流水线

本文介绍了一个完整的医疗分诊大模型微调项目,使用Qwen3-1.7B基础模型,通过QLoRA进行监督微调(SFT),再经DPO对齐人类偏好,最终部署为vLLM+FastAPI推理服务。项目涵盖数据管道、训练、评估到CI/CD部署的全流程。

3

章节 03

项目背景与目标

医疗分诊是医院急诊流程中的关键环节,需要根据患者描述的症状快速判断紧急程度(立即/中等/延后)。传统的人工分诊依赖经验丰富的护士,但在医疗资源紧张的情况下,AI辅助分诊可以显著提高效率。

本项目由Centre Hospitalier Saint-Aurélien (CHSA)发起,旨在构建一个能够处理英法双语患者描述、自动分类紧急程度的AI助手。项目采用Apache 2.0开源协议,完整展示了从数据准备到生产部署的全链路实现。

4

章节 04

技术架构概览

整个系统采用分层架构设计,分为数据管道、训练流程和部署服务三个主要模块:

数据层:整合四个公开医疗问答数据集(MediQAL MCQU、FrenchMedMCQA、MedQuAD、UltraMedical),经过清洗、匿名化处理后,生成5000条SFT训练样本和5000条DPO偏好对齐样本。

训练层:以Qwen3-1.7B-Base为基座模型,先使用QLoRA进行4-bit量化监督微调(LoRA秩设为16),再通过DPO(Direct Preference Optimization)对齐人类偏好。训练过程使用MLflow进行实验追踪,模型权重存储在Google Cloud Storage。

推理层:合并后的完整模型通过vLLM部署,支持连续批处理和PagedAttention优化,对外提供FastAPI REST接口。整个服务容器化后部署在GCP虚拟机,通过GitHub Actions实现CI/CD自动化。

5

章节 05

QLoRA高效微调

QLoRA(Quantized Low-Rank Adaptation)是本项目的核心技术之一。通过在4-bit Normal Float量化后的基座模型上添加低秩适配器,可以在单张16GB显存的GPU(如T4、L4)上完成训练。相比全参数微调,QLoRA将显存占用降低了约75%,同时保持了较好的微调效果。

6

章节 06

DPO偏好对齐

传统的RLHF(基于人类反馈的强化学习)需要训练奖励模型,流程复杂。DPO直接从偏好数据中学习,将问题转化为简单的分类任务,大幅简化了实现。项目中DPO数据采用UltraMedical-Preference数据集的三元组格式(问题、优选回答、劣选回答)。

7

章节 07

DVC数据版本控制

医疗数据涉及隐私和合规要求,项目使用DVC(Data Version Control)管理数据管道。从原始数据下载到最终训练集生成,共定义6个处理阶段(clean → anonymize → tokenize → split),任何参数变更都会自动触发相应阶段的重新执行。

8

章节 08

训练成果与评估

SFT阶段在训练集上损失降至1.112,验证集损失为1.189,显示模型收敛良好。项目包含70个单元测试,覆盖数据管道、API接口和模型推理逻辑。

当前项目处于第4周部署阶段,API服务已就绪,正在进行最终的生产环境验证。DPO对齐模型和完整技术报告也在同步推进中。