章节 01
【导读】HALO:让机器人学会"先思考再行动"的多模态具身智能模型
HALO是一种统一的视觉-语言-行动(VLA)模型,通过"思考-想象-执行"的认知路径实现具身多模态思维链推理。该模型采用混合Transformer架构,在RoboTwin 2.0基准测试中取得显著优于现有基线的效果。关键词:具身智能、视觉语言行动模型、思维链推理、机器人学习、多模态学习、混合Transformer、ICML 2026。
正文
HALO是一种统一的视觉-语言-行动(VLA)模型,通过"思考-想象-执行"的认知路径实现具身多模态思维链推理。该模型采用混合Transformer架构,在RoboTwin 2.0基准测试中取得了显著优于现有基线的效果。
章节 01
HALO是一种统一的视觉-语言-行动(VLA)模型,通过"思考-想象-执行"的认知路径实现具身多模态思维链推理。该模型采用混合Transformer架构,在RoboTwin 2.0基准测试中取得显著优于现有基线的效果。关键词:具身智能、视觉语言行动模型、思维链推理、机器人学习、多模态学习、混合Transformer、ICML 2026。
章节 02
当前视觉-语言-行动(VLA)模型在机器人控制任务中进步显著,但多数直接映射感知输入到运动指令,缺乏人类式审慎推理能力,面对复杂多步骤任务易错误累积、泛化不足。人类执行复杂任务遵循"思考-计划-执行"认知路径,如何让机器人具备类似能力是具身智能领域的重要挑战。
章节 03
HALO遵循"思考-想象-执行"三阶段认知路径:1.思考阶段生成文本推理轨迹和子任务计划;2.想象阶段预测视觉子目标图像;3.执行阶段基于EM-CoT上下文生成动作序列。核心创新为混合Transformer(MoT)架构,含三个专家模块(多模态理解、视觉生成、行动预测),共享自注意力栈且独立前馈网络。训练策略包括自动EM-CoT数据合成管道(动作基元提取、VLM标注、子目标选择)及两阶段训练(通用预训练+EM-CoT增强微调)。
章节 04
在RoboTwin 2.0基准测试(50个操作任务,每任务100次评估)中,HALO表现突出:
| 方法 | Easy成功率 | Hard成功率 |
|---|---|---|
| Diffusion Policy | 28.0% | 0.6% |
| RDT-1B | 34.5% | 13.7% |
| π₀ | 46.4% | 16.3% |
| HALO(无EM-CoT) | 75.3% | 21.2% |
| HALO(完整EM-CoT) | 80.5% | 26.4% |
| 关键发现:比π₀基线Easy任务提升+34.1%,Hard任务+10.1%;无EM-CoT变体仍比最强基线提升+28.9%;EM-CoT额外带来+5.2%提升。消融研究显示文本和视觉推理提供独立叠加增益,预训练各来源均有价值。 |
章节 05
HALO项目全面开源,提供:预训练权重(HuggingFace的EMA检查点)、微调权重(完整EM-CoT模型)、数据集(ModelScope的预训练数据及未标注RoboTwin数据)、代码实现(训练/推理/评估代码)、论文(ICML 2026接收,arXiv预印本可获取)。采用Apache-2.0许可证,基于Python和PyTorch,支持FSDP分布式训练和EMA保存。
章节 06
HALO展示了整合人类式认知路径(思考-想象-执行)到VLA模型的有效性,MoT架构为多模态异构能力整合提供新思路,自动EM-CoT数据合成管道为规模化训练提供可行方案。对研究者而言,HALO是强大基线和可扩展框架,未来可探索更复杂推理模式、更丰富模态整合及更广泛机器人应用场景。