# 视觉语言模型在步态筛查中的应用：零样本与多模态上下文学习

> Vera Research团队开源了用于步态分类筛查的视觉语言模型研究代码和数据集，探索了零样本学习与多模态上下文学习在帕金森病和膝骨关节炎检测中的应用，发现多模态ICL方法可显著缩小与专用视频编码器的性能差距。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-06-10T08:10:00.000Z
- 最近活动: 2026-06-10T08:23:01.772Z
- 热度: 154.8
- 关键词: 视觉语言模型, 步态分析, 医学筛查, 帕金森病, 膝骨关节炎, 多模态学习, 上下文学习, 零样本学习, V-JEPA, SigLIP
- 页面链接: https://www.zingnex.cn/forum/thread/llm-github-vera-research-vlm-gait-screening
- Canonical: https://www.zingnex.cn/forum/thread/llm-github-vera-research-vlm-gait-screening
- Markdown 来源: ingested_event

---

## 原作者与来源

- **原作者/维护者**: Vera Research（M. La Quatra, V. Cammarata, G. Trovato, V. Conti, V. M. Salerno, S. Sorce, N. D. Cilia）
- **来源平台**: GitHub
- **原始标题**: vlm-gait-screening
- **原始链接**: https://github.com/vera-research/vlm-gait-screening
- **论文**: Vision-Language Models for Gait-Based Screening via Zero-Shot and Multimodal In-Context Learning (MCMI Workshop @ ICPR 2026)
- **发布时间**: 2026年6月

## 研究背景与动机

步态分析是医学诊断中的重要工具，尤其对于神经退行性疾病（如帕金森病）和肌肉骨骼疾病（如膝骨关节炎）的早期筛查具有重要意义。传统的步态分析方法依赖于专业的临床评估和昂贵的运动捕捉设备，限制了其在大规模筛查中的应用。

近年来，视觉语言模型（Vision-Language Models, VLMs）在多个领域展现出强大的零样本学习和多模态理解能力。然而，这些模型在医学步态分析任务中的表现如何？它们能否替代或辅助传统的视频分析方法？Vera Research团队的这项研究正是为了回答这些问题。

## 研究目标与数据集

### 分类任务

本研究聚焦于一个三类步态分类任务：
- **正常步态（Normal）**
- **帕金森病步态（Parkinson's disease, PD）**
- **膝骨关节炎步态（Knee Osteoarthritis, KOA）**

### 数据集

研究使用了公开的[KOA-PD-NM数据集](https://doi.org/10.1016/j.dib.2021.107270)，该数据集包含上述三类受试者的步态视频数据。为确保实验的严谨性，研究团队采用了**受试者互斥的数据分割策略**（subject-disjoint split），防止支持集和测试集之间的身份泄露。

| 数据集分割 | 膝骨关节炎(KOA) | 正常(Normal) | 帕金森病(PD) | 总计 |
|-----------|----------------|-------------|-------------|------|
| 支持集(Support) | 8人 | 4人 | 2人 | 14人 |
| 测试集(Test) | 42人 | 26人 | 14人 | 82人 |

这种分割方式确保了模型在测试时面对的是完全未见过的受试者，更贴近真实世界的应用场景。

## 实验模型与方法

### 评估的视觉语言模型

研究评估了多个开源和闭源的视觉语言模型：

| 模型 | 类型 | 规模 | 访问方式 |
|-----|------|------|---------|
| Gemma 4 | 开源 | E2B / E4B / 31B | 本地运行 |
| Qwen3-VL | 开源 | 8B / 32B | 本地运行 |
| Gemini 2.5 Flash | 闭源 | - | API调用 |

### 基准对比方法

为了评估VLMs的性能，研究团队引入了自监督视频编码器作为参考基准：
- **V-JEPA 2 + kNN**：基于视频联合嵌入预测架构（Video Joint Embedding Predictive Architecture）的自监督学习方法，结合k近邻分类器

### 四级提示策略

研究设计了四种不同复杂度的提示条件，系统性地探索提示工程对VLM性能的影响：

| 级别 | 名称 | 描述 |
|-----|------|------|
| L0 | 直接分类(Direct) | 直接返回分类标签 |
| L1 | 描述后分类(Describe then classify) | 先进行自由形式描述，再给出标签 |
| L2 | 结构化步态分析(Structured gait analysis) | 分析六个步态特征后给出标签 |
| L3 | 多模态上下文学习(Multimodal ICL) | 使用两个相似性引导的支持样本后给出标签 |

### 多模态上下文学习机制

在L3级别中，支持样本的检索使用了**SigLIP 2**模型计算帧级嵌入的余弦相似度。具体流程如下：

1. 使用SigLIP 2编码器提取测试视频帧和支持集视频帧的嵌入向量
2. 计算测试视频与支持集视频之间的余弦相似度
3. 选择相似度最高的两个支持样本作为上下文示例
4. 将支持样本与测试样本一起输入VLM进行分类

这种相似性引导的样本选择策略确保了上下文示例与测试样本在视觉特征上的相关性，提高了ICL的有效性。

## 关键研究发现

### 发现一：零样本VLM表现不佳

研究结果显示，在所有提示条件和模型规模下，零样本视觉语言模型的表现都不理想：
- **最佳宏平均F1分数仅为0.360**
- 这表明VLMs在没有特定领域示例的情况下，难以准确识别步态异常

这一发现与VLMs在一般视觉任务中的出色表现形成对比，凸显了医学领域专业知识的复杂性和重要性。

### 发现二：多模态ICL显著缩小性能差距

当引入相似性引导的多模态上下文学习后，性能得到显著提升：
- **多模态ICL的宏平均F1达到0.771**
- **与V-JEPA 2基准（0.791）的差距大幅缩小**

这一结果表明，通过精心设计的上下文学习策略，通用VLMs可以在专业医学任务上接近甚至达到专用模型的性能水平。

### 发现三：视觉示例是主导因素

研究进一步分析了不同因素对性能的影响：
- **视觉示例（支持样本）是影响性能的最关键因素**
- 提示结构、模型规模和推理模式的影响相对较小，且呈现模型家族特异性

这一发现对于实际应用具有重要指导意义：在资源受限的情况下，优先投资于高质量的支持样本收集和检索系统，可能比追求更大的模型或更复杂的提示工程带来更大的收益。

## 技术实现细节

### 代码结构

开源仓库提供了完整的实验代码和数据集分割文件：
- `splits/`：包含支持集和测试集的受试者ID分割文件
- 实验脚本：实现四级提示策略和评估流程
- 数据处理：KOA-PD-NM数据集的预处理代码

### 可复现性

研究团队提供了详细的数据集分割信息，确保其他研究者可以：
1. 使用相同的训练/测试划分复现实验结果
2. 在相同基准上比较新方法的性能
3. 验证研究发现的稳健性

## 研究意义与应用前景

### 医学筛查领域

这项研究为步态分析在医学筛查中的应用提供了新的技术路径：
- **降低设备门槛**：VLMs可以直接分析普通摄像头拍摄的视频，无需专用运动捕捉设备
- **提高可及性**：基于云的VLM API使得偏远地区也能获得专业级的步态分析能力
- **辅助诊断**：可以作为医生的辅助工具，提高筛查效率和一致性

### 多模态学习研究

研究验证了多模态上下文学习在医学视觉任务中的有效性：
- 为其他医学影像分析任务提供了方法论参考
- 展示了相似性引导样本选择的实用价值
- 揭示了视觉示例在医学领域迁移学习中的关键作用

### 模型选择与部署建议

基于研究发现，对于实际部署有以下建议：
1. **不要依赖纯零样本方法**：医学任务的专业性要求必须提供领域特定的示例
2. **建立支持样本库**：投资于高质量、多样化的支持样本收集
3. **优化检索系统**：使用视觉相似性而非文本相似性来选择上下文示例
4. **考虑开源模型**：Gemma 4和Qwen3-VL等开源模型在本地部署时可以达到接近闭源模型的性能

## 局限性与未来方向

### 当前局限

- **数据集规模**：KOA-PD-NM数据集相对较小，可能影响模型的泛化能力
- **三类分类**：当前仅考虑三种步态类型，实际临床场景可能更复杂
- **视频长度**：研究未深入探讨视频长度对性能的影响

### 未来研究方向

- **扩展数据集**：纳入更多类型的步态异常和更大规模的受试者群体
- **细粒度分析**：探索VLMs在步态特征量化（如步长、步频）方面的能力
- **实时应用**：研究VLMs在实时步态监测中的可行性和效率
- **跨模态融合**：结合可穿戴传感器数据与视频数据，提高诊断准确性

## 总结

Vera Research团队的这项研究系统地评估了视觉语言模型在步态筛查任务中的应用潜力。核心结论是：**虽然零样本VLMs在医学步态分析中表现不佳，但通过相似性引导的多模态上下文学习，可以显著提升性能，接近专用视频编码器的水平**。

这一发现为通用AI模型在专业医学领域的应用提供了重要启示：领域特定的示例和精心设计的提示策略可能比单纯的模型规模更重要。随着多模态大模型的持续发展，我们可以期待在医学影像分析、辅助诊断等领域看到更多类似的突破性应用。