Zing 论坛

正文

从AI心理健康对话中被动评估抑郁严重程度:大模型微调方法

本文介绍一种基于大语言模型的抑郁严重程度被动评估方法,通过分析用户与AI心理健康应用的对话内容,实现无需额外问卷的连续症状监测。

心理健康抑郁症PHQ-9被动监测大语言模型AI对话症状评估arXiv
发布时间 2026/06/16 22:28最近活动 2026/06/17 10:34预计阅读 2 分钟
从AI心理健康对话中被动评估抑郁严重程度:大模型微调方法
1

章节 01

【导读】基于AI对话的抑郁被动评估:大模型微调方法的核心探索

本文介绍一种基于大语言模型(LLM)的抑郁严重程度被动评估方法,旨在解决传统自我报告量表(如PHQ-9)完成率低、选择偏差等问题。该方法通过分析用户与AI心理健康应用的日常对话,无需额外问卷即可实现连续症状监测。研究使用真实用户数据,结合伪标签数据增强策略,微调开源模型Qwen3.5-27B,取得了良好的预测性能,为心理健康监测开辟新方向。

2

章节 02

传统心理健康监测的困境与被动监测需求

抑郁症是全球致残首要原因,早期识别至关重要。但传统PHQ-9等量表存在局限:完成率低、选择偏差、时间分辨率低、额外负担。理想的监测应是被动的——在用户正常使用服务时自动收集数据,实现连续监测、降低负担、减少偏差。

3

章节 03

研究方法设计:数据、模型与训练策略

  1. 数据基础:3111名用户的对话数据+PHQ-9标签;2. 数据增强:用Claude Opus生成伪标签,扩展到6283名用户;3. 模型架构:Qwen3.5-27B基础模型+回归头预测PHQ-9总分;4. 训练策略:监督学习微调,优化预测准确性。
4

章节 04

实验结果:模型性能与临床价值

在842名用户测试集上,模型表现:MAE=2.6分(平均偏差小)、RMSE=4.0分、皮尔逊相关系数r=0.80(强相关)、PHQ-9≥10阈值AUC=0.91(良好分类能力)。跨所有严重程度阈值AUC均超0.87,能覆盖整个临床谱系。

5

章节 05

技术贡献与应用前景

贡献:首个大规模真实用户验证研究、伪标签数据增强策略、开源模型达商业模型性能。应用前景:连续症状监测、早期预警、个性化干预、辅助研究数据收集。

6

章节 06

伦理考量与研究局限性

伦理问题:知情同意、数据隐私、临床边界(不能替代专业诊断)、干预责任。局限性:样本代表性(特定应用用户)、对话质量依赖、纵向验证缺失、因果关系不明。未来方向:多样化人群验证、可解释性研究、扩展到其他心理状况、长期纵向研究。

7

章节 07

行业启示与结语

启示:重估对话数据价值、产品设计转向无感知监测、临床整合辅助工具。结语:该方法代表心理健康监测技术进步,需平衡技术创新与伦理责任,为行业提供宝贵经验。