# HALO：让机器人学会"先思考再行动"的多模态具身智能模型

> HALO是一种统一的视觉-语言-行动（VLA）模型，通过"思考-想象-执行"的认知路径实现具身多模态思维链推理。该模型采用混合Transformer架构，在RoboTwin 2.0基准测试中取得了显著优于现有基线的效果。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-07T22:14:58.000Z
- 最近活动: 2026-05-08T02:11:55.190Z
- 热度: 136.1
- 关键词: 具身智能, 视觉语言行动模型, 思维链推理, 机器人学习, 多模态学习, 混合Transformer, ICML 2026
- 页面链接: https://www.zingnex.cn/forum/thread/halo
- Canonical: https://www.zingnex.cn/forum/thread/halo
- Markdown 来源: ingested_event

---

## 背景：具身智能的推理鸿沟\n\n当前视觉-语言-行动（VLA）模型在机器人控制任务中取得了长足进步，但大多数模型直接将感知输入映射到运动指令，缺乏人类式的 deliberative reasoning（审慎推理）能力。当面对复杂的多步骤操作任务时，这种"感知-动作"的直接映射往往导致错误累积和泛化能力不足。\n\n人类在执行复杂任务时，会自然地遵循"思考-计划-执行"的认知路径：先理解任务目标，分解为子任务，想象预期结果，最后执行具体动作。如何让机器人具备类似的认知能力，是具身智能领域的重要挑战。\n\n## HALO：统一的多模态思维链框架\n\nHALO（Hybrid vision-Language-actiOn model）是由研究人员提出的统一VLA模型，专门设计用于执行具身多模态思维链（Embodied Multimodal Chain-of-Thought, EM-CoT）推理。与标准VLA模型不同，HALO遵循"思考-想象-执行"的三阶段认知路径：\n\n1. **思考阶段**：生成文本推理轨迹和子任务计划\n2. **想象阶段**：预测视觉子目标图像，将计划锚定在像素空间\n3. **执行阶段**：基于EM-CoT上下文生成动作序列\n\n这种类人分解通过**混合Transformer（Mixture-of-Transformers, MoT）**架构实现，包含三个专门化的专家模块：多模态理解、视觉生成和行动预测。这些专家共享同一个自注意力栈，但保持独立的前馈网络参数。\n\n## 技术创新：MoT架构与训练策略\n\n### 混合Transformer架构\n\nHALO的核心创新在于MoT架构设计。三个专家模块各自保留其原生生成工作流程：\n\n- **多模态理解专家**：采用自回归token生成处理文本推理\n- **视觉生成专家**：使用流匹配（flow-matching）生成视觉子目标\n- **行动预测专家**：同样使用流匹配生成动作序列\n\n这种设计避免了将异构能力强制整合到单一模型时产生的冲突。模态切换通过特殊控制token（如`<think_start>`、`<vision_start>`、`<action_start>`）实现，精心设计的注意力掩码确保跨模态的因果生成，同时允许图像帧内的双向注意力。\n\n### EM-CoT数据合成管道\n\n为了规模化训练HALO，研究团队开发了自动EM-CoT数据合成管道，将原始机器人轨迹转换为增强型轨迹：\n\n1. **动作基元提取**：将连续的低层动作映射到离散基元（如"手臂下降"、"夹爪闭合"）\n2. **VLM标注**：使用大规模视觉语言模型（Qwen3-VL）消费基元序列和帧，生成高层任务计划、子任务分解和每子任务的文本推理\n3. **子目标选择**：将每个子任务的终止帧指定为视觉子目标，为视觉生成专家提供稀疏但高信号的监督\n\n### 两阶段训练配方\n\nHALO采用两阶段训练策略：\n\n**第一阶段：通用预训练**\n混合三类数据进行预训练：\n- LLaVA-NeXT-779k上的通用VQA\n- OXE + SSv2上的视觉生成（未来帧预测）\n- OXE上的模仿学习\n总损失函数为：0.25·L_CE + 0.5·L_MSE + L_L1\n\n**第二阶段：EM-CoT增强微调**\n在（文本推理、子目标图像、动作）三元组上训练，同时加入辅助VQA防止知识遗忘。联合损失L_r + L_ô + L_a协调完整的思考-想象-行动链条。\n\n## 实验结果：显著的性能提升\n\n在RoboTwin 2.0基准测试（50个操作任务，每个100次评估）上，HALO取得了令人瞩目的结果：\n\n| 方法 | Easy成功率 | Hard成功率 |
|------|-----------|-----------|
| Diffusion Policy | 28.0% | 0.6% |
| RDT-1B | 34.5% | 13.7% |
| π₀ | 46.4% | 16.3% |
| HALO（无EM-CoT） | 75.3% | 21.2% |
| **HALO（完整EM-CoT）** | **80.5%** | **26.4%** |
\n关键发现：\n\n- 相比π₀基线，Easy任务提升+34.1个百分点，Hard任务提升+10.1个百分点\n- 即使不使用EM-CoT的HALO变体，仍比最强基线提升+28.9个百分点，显示了通用预训练基础的强大能力\n- 完整的EM-CoT机制额外带来+5.2个百分点的提升，在激进的环境随机化下增益最为显著\n\n### 消融研究\n\n**EM-CoT组件消融**：\n- 移除视觉子目标：Easy从80.5%降至76.1%\n- 移除文本推理：降至77.8%\n- 同时移除两者：降至75.3%\n\n这表明文本和视觉推理提供了独立且可叠加的增益。\n\n**预训练配方消融**：\n- 移除视觉生成数据：损失17.1个Easy任务百分点\n- 再移除VQA数据：再损失15.3个百分点\n- 无任何预训练：Hard任务成功率降至0.0%\n\n每个预训练来源都为下游任务提供了可衡量的价值。\n\n## 开源资源与可用性\n\nHALO项目已全面开源，提供以下资源：\n\n- **预训练权重**：HuggingFace提供第一阶段通用预训练的EMA检查点\n- **微调权重**：完整的EM-CoT微调模型权重\n- **数据集**：ModelScope提供预训练数据（LLaVA-NeXT格式）和未标注RoboTwin数据\n- **代码实现**：完整的训练、推理和评估代码\n- **论文**：ICML 2026接收，arXiv预印本可获取\n\n项目采用Apache-2.0许可证，基于Python和PyTorch构建，支持FSDP分布式训练和EMA（指数移动平均）模型保存。\n\n## 意义与展望\n\nHALO代表了具身智能领域的重要进展，展示了将人类式认知路径（思考-想象-执行）整合到VLA模型中的有效性。其MoT架构为解决多模态异构能力整合问题提供了新思路，而自动EM-CoT数据合成管道则为规模化训练提供了可行方案。\n\n对于机器人学和人工智能研究者而言，HALO不仅是一个强大的基线模型，更是一个可扩展的框架，未来可进一步探索更复杂的推理模式、更丰富的模态整合，以及更广泛的机器人应用场景。