# MultiSmolVLA：通过模态丢弃训练增强VLA模型的多传感器鲁棒性

> MultiSmolVLA项目通过将4M-21多模态编码器与SmolVLA结合，并引入模态丢弃训练策略，显著提升了视觉-语言-动作模型在传感器故障场景下的鲁棒性，为机器人应用提供了更可靠的感知方案。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-22T09:43:46.000Z
- 最近活动: 2026-04-22T09:51:03.296Z
- 热度: 154.9
- 关键词: MultiSmolVLA, VLA模型, 多模态感知, 机器人, 模态丢弃, 鲁棒性, 4M-21, SmolVLA, EPFL, 视觉语言动作
- 页面链接: https://www.zingnex.cn/forum/thread/multismolvla-vla
- Canonical: https://www.zingnex.cn/forum/thread/multismolvla-vla
- Markdown 来源: ingested_event

---

# MultiSmolVLA：通过模态丢弃训练增强VLA模型的多传感器鲁棒性\n\n在机器人领域，视觉-语言-动作（Vision-Language-Action，VLA）模型正成为连接高层指令与低层动作的关键技术。然而，当前主流的VLA模型大多依赖单一的RGB视觉输入，一旦摄像头故障、光线不足或视野被遮挡，模型性能会急剧下降。EPFL的研究团队提出的MultiSmolVLA项目，通过创新的架构设计和训练策略，有效解决了这一痛点。\n\n## 问题背景：单模态依赖的脆弱性\n\n现有的VLA模型如π0、OpenVLA等，虽然在标准基准测试上表现优异，但它们的设计假设是视觉输入始终可用且可靠。在现实世界的机器人部署中，这一假设往往不成立：\n\n- **传感器故障**：摄像头可能因硬件故障、连接中断或电源问题而失效\n- **环境干扰**：强光、阴影、烟雾或反光表面会严重降低RGB图像质量\n- **遮挡问题**：物体或操作人员可能意外遮挡机器人的视野\n\n当这些情况发生时，依赖单一RGB输入的模型往往会出现"灾难性性能下降"，导致任务失败甚至安全隐患。\n\n## MultiSmolVLA的核心创新\n\nMultiSmolVLA项目从两个维度提升VLA模型的鲁棒性：多模态感知融合和模态丢弃训练策略。\n\n### 架构创新：从SigLIP到4M-21\n\n原版SmolVLA使用SigLIP作为视觉编码器，仅处理RGB图像。MultiSmolVLA将其替换为Apple开发的4M-21多模态编码器，这是一个"任意到任意"（any-to-any）的视觉模型，能够同时处理并融合四种感知模态：\n\n1. **RGB图像**：标准彩色视觉输入\n2. **深度图（Depth）**：提供场景的三维结构信息\n3. **语义分割（Segmentation）**：识别图像中不同物体的类别和边界\n4. **热成像（Thermal）**：通过温度信息感知环境，在烟雾或黑暗中仍能工作\n\n这四种模态通过4M-21编码器融合为统一的token序列，然后经过一个轻量级的MLP连接器投影到SmolLM2的语言模型嵌入空间，最终驱动动作专家生成连续的动作块。\n\n### 训练策略：模态丢弃课程\n\n仅有多种传感器还不够，模型必须学会在部分传感器失效时仍能正常工作。MultiSmolVLA采用了一种渐进式的"模态丢弃"（modality-dropout）训练策略：\n\n在训练过程中，每个模态输入都有一定概率被独立地置零（即模拟传感器失效）。这个丢弃概率采用课程学习的方式逐渐增加：\n\n- **第一阶段（连接器对齐）**：仅训练MLP连接器，丢弃概率为0，让连接器学会将4M-21的特征映射到SmolLM2的token分布\n- **第二阶段（鲁棒性微调）**：使用LoRA适配器微调整个模型，丢弃概率从0线性增加到0.5\n\n这种训练方式迫使模型学会：当所有模态都可用时，如何有效融合互补信息；当某些模态缺失时，如何利用剩余模态补偿。\n\n## 技术实现细节\n\n### 热成像模态的合成生成\n\n由于真实的热成像数据集稀缺，MultiSmolVLA使用ThermalGen模型从RGB图像合成热成像数据。ThermalGen是一种基于扩散模型的图像转换网络，能够将可见光图像转换为逼真的热成像表示。\n\n合成的热成像数据通过ImageBind编码器转换为与4M-21兼容的嵌入格式。ImageBind是Meta开发的多模态嵌入模型，能够将不同模态的数据映射到统一的嵌入空间。\n\n### 两阶段训练流程\n\n| 组件 | 角色 | 是否冻结 |\n|------|------|----------|\n| ImageBind | 热成像→4M-21兼容嵌入 | 是 |\n| 4M-21编码器 | 融合RGB+深度+分割+热成像 | 是 |\n| MLP连接器 | 投影4M token到SmolLM2空间 | 否（第一阶段训练） |\n| SmolLM2 | 语言解码器，条件化动作专家 | 否（第二阶段LoRA微调） |\n| 动作专家 | 生成连续动作块 | 否（第二阶段LoRA微调） |\n\n冻结4M-21和ImageBind的决策基于计算效率考虑：这两个组件已经在大规模多模态数据上预训练，具备强大的特征提取能力，冻结它们可以显著减少训练时间和显存需求。\n\n### 数据集与评估基准\n\n项目使用LIBERO基准测试套件进行评估，该套件包含四个任务类别：\n\n- **Spatial**：空间关系推理任务\n- **Object**：物体操作任务\n- **Goal**：目标达成任务\n- **Long**：长时程复杂任务\n\n数据集来自HuggingFace的binhng/original-libero，包含对齐的RGB、语义分割和深度图模态。\n\n评估设置了三种测试条件：\n\n1. **Clean**：所有模态可用，无损坏\n2. **Hard dropout**：推理时一个或多个模态被置零\n3. **Soft corruption**：添加高斯噪声、运动模糊或中心黑块遮挡\n\n## 性能对比与消融研究\n\n项目报告了与基线模型的对比结果：\n\n| 模型 | 平均任务完成率 |\n|------|----------------|\n| Vanilla SmolVLA（仅RGB，无丢弃训练） | 87.3% |\n| Vanilla π0（仅RGB，无丢弃训练） | 86% |\n\n虽然MultiSmolVLA的完整性能数据未在README中披露，但项目设计了系统的消融研究来验证各个设计决策的有效性：\n\n1. **w/ vs. w/o additional modalities**：对比使用额外模态（深度、分割、热成像）与仅使用RGB的效果\n2. **Fixed dropout vs. curriculum dropout**：对比固定丢弃概率与渐进式课程丢弃的效果\n\n这些消融研究有助于理解哪些因素对鲁棒性提升贡献最大。\n\n## 项目结构与使用方式\n\nMultiSmolVLA的代码库组织清晰：\n\n```\nvla-robustness/\n├── src/pipeline/\n│   ├── encoder_4m.py      # 4M-21编码器封装\n│   ├── connector.py       # MLP连接器（LLaVA-1.5风格）\n│   ├── smolvla_wrapper.py # SmolVLA封装\n│   └── full_pipeline.py   # 端到端管道\n├── scripts/\n│   └── test_pipeline.py   # 端到端完整性检查\n├── third_party/\n│   ├── lerobot/          # SmolVLA源码\n│   ├── ml-4m/            # 4M-21源码\n│   └── ImageBind/        # ImageBind源码\n└── ...\n```\n\n环境配置要求：\n\n- Python 3.12（LeRobot 0.5.2+要求）\n- PyTorch 2.7.0+cu128\n- LeRobot 0.5.2\n- fourm 1.0.0（4M-21，需--no-deps安装）\n- ImageBind 0.1.0（需--no-deps安装）\n\n安装步骤涉及从GitHub克隆多个第三方依赖库，并处理一些平台特定的兼容性问题（如Windows上的pytorchvideo修复）。\n\n## 技术意义与应用前景\n\nMultiSmolVLA的工作对VLA领域有几个重要贡献：\n\n### 1. 鲁棒性研究的范式转移\n\n传统VLA研究主要关注在理想条件下的性能上限，而MultiSmolVLA将注意力转向"故障条件下的性能下限"。这种视角转变对于实际部署至关重要——一个在实际场景中可靠的80%成功率模型，往往比实验室中95%但不耐故障的模型更有价值。\n\n### 2. 多模态融合的方法论\n\n项目展示了如何有效组合多个现有的优秀组件（4M-21、SmolVLA、ImageBind、ThermalGen）来构建新能力。这种"组装式创新"而非"从头训练"的策略，在计算资源有限的研究环境中尤为重要。\n\n### 3. 训练策略的启示\n\n模态丢弃课程的思想可以推广到其他多模态学习场景。不仅限于机器人，在医疗影像（CT、MRI、X光融合）、自动驾驶（摄像头、激光雷达、毫米波雷达融合）等领域，类似的鲁棒性训练策略都可能发挥作用。\n\n### 4. 对开源社区的贡献\n\n项目完整开源了代码、训练流程和评估脚本，并基于LIBERO这一公开基准，便于其他研究者复现和扩展。这种开放性对于推动整个领域的进步至关重要。\n\n## 局限性与未来方向\n\n尽管MultiSmolVLA取得了重要进展，但仍有一些值得关注的局限：\n\n- **热成像的合成依赖**：目前使用ThermalGen合成热成像，与真实热成像可能存在域差异\n- **计算开销**：运行4M-21编码器和多个模态的前向传播，相比单RGB模型有明显计算成本\n- **传感器同步**：实际部署中需要确保多模态传感器的时间同步，项目未深入讨论这一工程挑战\n\n未来可能的研究方向包括：\n\n- 探索更高效的模态融合架构，如交叉注意力机制替代简单的token拼接\n- 研究自适应模态选择策略，让模型根据当前任务和可用传感器动态决定依赖哪些模态\n- 将鲁棒性训练扩展到其他类型的扰动，如对抗攻击、传感器标定误差等\n\nMultiSmolVLA代表了VLA模型从"实验室玩具"向"工业级工具"演进的重要一步。通过系统性的架构设计和训练策略创新，它证明了多模态感知与鲁棒性训练的结合能够有效缓解传感器故障带来的性能下降，为更可靠的机器人应用铺平了道路。