章节 01
视觉语言模型在步态筛查中的应用:零样本与多模态上下文学习导读
Vera Research团队开源了用于步态分类筛查的视觉语言模型研究代码和数据集,探索零样本学习与多模态上下文学习在帕金森病和膝骨关节炎检测中的应用。核心结论:零样本视觉语言模型表现不佳,但通过相似性引导的多模态上下文学习(ICL)可显著缩小与专用视频编码器的性能差距。研究为通用AI模型在专业医学领域的应用提供重要启示。
正文
Vera Research团队开源了用于步态分类筛查的视觉语言模型研究代码和数据集,探索了零样本学习与多模态上下文学习在帕金森病和膝骨关节炎检测中的应用,发现多模态ICL方法可显著缩小与专用视频编码器的性能差距。
章节 01
Vera Research团队开源了用于步态分类筛查的视觉语言模型研究代码和数据集,探索零样本学习与多模态上下文学习在帕金森病和膝骨关节炎检测中的应用。核心结论:零样本视觉语言模型表现不佳,但通过相似性引导的多模态上下文学习(ICL)可显著缩小与专用视频编码器的性能差距。研究为通用AI模型在专业医学领域的应用提供重要启示。
章节 02
步态分析是神经退行性疾病(如帕金森病)和肌肉骨骼疾病(如膝骨关节炎)早期筛查的重要工具,但传统方法依赖专业评估和昂贵设备,限制大规模应用。近年来VLMs展现强大零样本和多模态能力,本研究旨在探索其在医学步态分析中的表现及替代/辅助传统方法的可能性。
章节 03
聚焦三类步态分类:正常步态、帕金森病步态、膝骨关节炎步态
使用公开KOA-PD-NM数据集,采用受试者互斥分割策略防止身份泄露:
| 数据集分割 | 膝骨关节炎(KOA) | 正常(Normal) | 帕金森病(PD) | 总计 |
|---|---|---|---|---|
| 支持集(Support) | 8人 | 4人 | 2人 | 14人 |
| 测试集(Test) | 42人 | 26人 | 14人 | 82人 |
确保测试时面对未见过的受试者,贴近真实场景。
章节 04
| 模型 | 类型 | 规模 | 访问方式 |
|---|---|---|---|
| Gemma 4 | 开源 | E2B / E4B / 31B | 本地运行 |
| Qwen3-VL | 开源 | 8B / 32B | 本地运行 |
| Gemini 2.5 Flash | 闭源 | - | API调用 |
V-JEPA 2 + kNN(自监督视频编码器+ k近邻分类器)
| 级别 | 名称 | 描述 |
|---|---|---|
| L0 | 直接分类 | 直接返回标签 |
| L1 | 描述后分类 | 先自由描述再给标签 |
| L2 | 结构化步态分析 | 分析六个步态特征后给标签 |
| L3 | 多模态ICL | 用两个相似性引导的支持样本后分类 |
相似性引导确保上下文与测试样本视觉相关。
章节 05
最佳宏平均F1仅0.360,表明无领域示例时难以识别步态异常,凸显医学领域专业知识复杂性。
多模态ICL宏平均F1达0.771,与V-JEPA 2基准(0.791)差距大幅缩小,通用VLMs可接近专用模型性能。
视觉支持样本对性能影响最大,提示结构、模型规模等影响较小且具模型家族特异性。
章节 06
为医学影像分析提供方法论,验证相似性引导样本选择价值。
为通用AI在专业医学领域应用提供启示:领域示例与提示策略比模型规模更重要。
章节 07