章节 01
【导读】多模态融合+LLM赋能:抑郁症检测智能医疗新方案
本项目创新性结合面部表情特征与大语言模型(LLM)文本处理能力,构建双模态抑郁症检测系统。通过融合视觉与语言信息,在E-DAIC数据集上实现比单模态更准确的抑郁程度评估,为智能医疗辅助诊断提供新方向。
正文
本项目创新性地结合面部表情特征与大语言模型文本处理能力,构建了一个多模态抑郁症检测系统。通过融合视觉与语言模态,该系统在E-DAIC数据集上实现了比单模态方法更准确的抑郁程度评估。
章节 01
本项目创新性结合面部表情特征与大语言模型(LLM)文本处理能力,构建双模态抑郁症检测系统。通过融合视觉与语言信息,在E-DAIC数据集上实现比单模态更准确的抑郁程度评估,为智能医疗辅助诊断提供新方向。
章节 02
抑郁症影响全球超2.8亿人,传统诊断依赖医生主观评估和患者自我报告,存在延迟、主观性强等问题。AI技术发展推动多模态自动化检测成为热点,整合面部表情、语音、文本等信息能更全面捕捉症状,LLM的出现为文本深度理解提供新可能。
章节 03
使用OpenFace提取面部动作单元(AUs)、头部姿态、眼神追踪、面部关键点等特征,通过LSTM建模表情动态时序模式。
用GPT-3.5 Turbo生成访谈文本补全,再通过DepRoBERTa(心理健康预训练RoBERTa变体)进行抑郁分类,输出三类结果。
特征级融合视觉与文本特征,用SVR回归模型预测PHQ-8分数,端到端训练优化整体系统。
章节 04
基于扩展DAIC(E-DAIC)数据集,含临床访谈视频及PHQ-8评分,划分训练/验证/测试集确保可靠。
分类准确率、PHQ-8预测的MSE/MAE、宏平均/加权平均F1分数。
模块化架构(数据/脚本/源码目录),分三阶段训练(视频模型→文本模型→多模态融合),需OpenAI API密钥处理文本。
章节 05
章节 06
章节 07
整合语音模态、优化实时检测、开发个性化模型;
模块化设计便于复现与扩展,为多模态心理健康AI研究提供参考,支持社区贡献新方法。