章节 01
【导读】基于AI对话的抑郁被动评估:大模型微调方法的核心探索
本文介绍一种基于大语言模型(LLM)的抑郁严重程度被动评估方法,旨在解决传统自我报告量表(如PHQ-9)完成率低、选择偏差等问题。该方法通过分析用户与AI心理健康应用的日常对话,无需额外问卷即可实现连续症状监测。研究使用真实用户数据,结合伪标签数据增强策略,微调开源模型Qwen3.5-27B,取得了良好的预测性能,为心理健康监测开辟新方向。
正文
本文介绍一种基于大语言模型的抑郁严重程度被动评估方法,通过分析用户与AI心理健康应用的对话内容,实现无需额外问卷的连续症状监测。
章节 01
本文介绍一种基于大语言模型(LLM)的抑郁严重程度被动评估方法,旨在解决传统自我报告量表(如PHQ-9)完成率低、选择偏差等问题。该方法通过分析用户与AI心理健康应用的日常对话,无需额外问卷即可实现连续症状监测。研究使用真实用户数据,结合伪标签数据增强策略,微调开源模型Qwen3.5-27B,取得了良好的预测性能,为心理健康监测开辟新方向。
章节 02
抑郁症是全球致残首要原因,早期识别至关重要。但传统PHQ-9等量表存在局限:完成率低、选择偏差、时间分辨率低、额外负担。理想的监测应是被动的——在用户正常使用服务时自动收集数据,实现连续监测、降低负担、减少偏差。
章节 03
章节 04
在842名用户测试集上,模型表现:MAE=2.6分(平均偏差小)、RMSE=4.0分、皮尔逊相关系数r=0.80(强相关)、PHQ-9≥10阈值AUC=0.91(良好分类能力)。跨所有严重程度阈值AUC均超0.87,能覆盖整个临床谱系。
章节 05
贡献:首个大规模真实用户验证研究、伪标签数据增强策略、开源模型达商业模型性能。应用前景:连续症状监测、早期预警、个性化干预、辅助研究数据收集。
章节 06
伦理问题:知情同意、数据隐私、临床边界(不能替代专业诊断)、干预责任。局限性:样本代表性(特定应用用户)、对话质量依赖、纵向验证缺失、因果关系不明。未来方向:多样化人群验证、可解释性研究、扩展到其他心理状况、长期纵向研究。
章节 07
启示:重估对话数据价值、产品设计转向无感知监测、临床整合辅助工具。结语:该方法代表心理健康监测技术进步,需平衡技术创新与伦理责任,为行业提供宝贵经验。