正文

视觉语言模型在步态筛查中的应用：零样本与多模态上下文学习

Vera Research团队开源了用于步态分类筛查的视觉语言模型研究代码和数据集，探索了零样本学习与多模态上下文学习在帕金森病和膝骨关节炎检测中的应用，发现多模态ICL方法可显著缩小与专用视频编码器的性能差距。

视觉语言模型步态分析医学筛查帕金森病膝骨关节炎多模态学习上下文学习零样本学习V-JEPASigLIP

发布时间 2026/06/10 16:10最近活动 2026/06/10 16:23预计阅读 3 分钟

章节 01

视觉语言模型在步态筛查中的应用：零样本与多模态上下文学习导读

Vera Research团队开源了用于步态分类筛查的视觉语言模型研究代码和数据集，探索零样本学习与多模态上下文学习在帕金森病和膝骨关节炎检测中的应用。核心结论：零样本视觉语言模型表现不佳，但通过相似性引导的多模态上下文学习（ICL）可显著缩小与专用视频编码器的性能差距。研究为通用AI模型在专业医学领域的应用提供重要启示。

章节 02

研究背景与动机

步态分析是神经退行性疾病（如帕金森病）和肌肉骨骼疾病（如膝骨关节炎）早期筛查的重要工具，但传统方法依赖专业评估和昂贵设备，限制大规模应用。近年来VLMs展现强大零样本和多模态能力，本研究旨在探索其在医学步态分析中的表现及替代/辅助传统方法的可能性。

章节 03

研究目标与数据集

分类任务

聚焦三类步态分类：正常步态、帕金森病步态、膝骨关节炎步态

数据集

使用公开KOA-PD-NM数据集，采用受试者互斥分割策略防止身份泄露：

数据集分割	膝骨关节炎(KOA)	正常(Normal)	帕金森病(PD)	总计
支持集(Support)	8人	4人	2人	14人
测试集(Test)	42人	26人	14人	82人

确保测试时面对未见过的受试者，贴近真实场景。

章节 04

实验模型与方法

评估的视觉语言模型

模型	类型	规模	访问方式
Gemma 4	开源	E2B / E4B / 31B	本地运行
Qwen3-VL	开源	8B / 32B	本地运行
Gemini 2.5 Flash	闭源	-	API调用

基准对比

V-JEPA 2 + kNN（自监督视频编码器+ k近邻分类器）

四级提示策略

级别	名称	描述
L0	直接分类	直接返回标签
L1	描述后分类	先自由描述再给标签
L2	结构化步态分析	分析六个步态特征后给标签
L3	多模态ICL	用两个相似性引导的支持样本后分类

多模态ICL机制

SigLIP 2提取测试/支持视频帧嵌入
计算余弦相似度
选Top2支持样本作为上下文
输入VLM分类

相似性引导确保上下文与测试样本视觉相关。

章节 05

关键研究发现

发现一：零样本VLM表现不佳

最佳宏平均F1仅0.360，表明无领域示例时难以识别步态异常，凸显医学领域专业知识复杂性。

发现二：多模态ICL显著提升

多模态ICL宏平均F1达0.771，与V-JEPA 2基准（0.791）差距大幅缩小，通用VLMs可接近专用模型性能。

发现三：视觉示例是主导因素

视觉支持样本对性能影响最大，提示结构、模型规模等影响较小且具模型家族特异性。

章节 06

研究意义与应用前景

医学筛查领域

降低设备门槛：普通摄像头即可分析
提高可及性：云API支持偏远地区
辅助诊断：提升筛查效率与一致性

多模态学习参考

为医学影像分析提供方法论，验证相似性引导样本选择价值。

部署建议

不依赖纯零样本方法
建立高质量支持样本库
用视觉相似性优化检索
优先考虑开源模型（Gemma4/Qwen3-VL）

研究意义

为通用AI在专业医学领域应用提供启示：领域示例与提示策略比模型规模更重要。

章节 07

局限性与未来方向

当前局限

数据集规模较小，泛化能力待验证
仅三类步态，临床场景更复杂
未深入探讨视频长度影响

未来方向

扩展数据集至更多步态类型与受试者
探索步态特征量化（步长/步频）能力
研究实时步态监测可行性
融合可穿戴传感器与视频数据提升准确性