正文

HALO：让机器人学会"先思考再行动"的多模态具身智能模型

HALO是一种统一的视觉-语言-行动（VLA）模型，通过"思考-想象-执行"的认知路径实现具身多模态思维链推理。该模型采用混合Transformer架构，在RoboTwin 2.0基准测试中取得了显著优于现有基线的效果。

具身智能视觉语言行动模型思维链推理机器人学习多模态学习混合TransformerICML 2026

发布时间 2026/05/08 06:14最近活动 2026/05/08 10:11预计阅读 2 分钟

章节 01

【导读】HALO：让机器人学会"先思考再行动"的多模态具身智能模型

HALO是一种统一的视觉-语言-行动（VLA）模型，通过"思考-想象-执行"的认知路径实现具身多模态思维链推理。该模型采用混合Transformer架构，在RoboTwin 2.0基准测试中取得显著优于现有基线的效果。关键词：具身智能、视觉语言行动模型、思维链推理、机器人学习、多模态学习、混合Transformer、ICML 2026。

章节 02

背景：具身智能的推理鸿沟与挑战

当前视觉-语言-行动（VLA）模型在机器人控制任务中进步显著，但多数直接映射感知输入到运动指令，缺乏人类式审慎推理能力，面对复杂多步骤任务易错误累积、泛化不足。人类执行复杂任务遵循"思考-计划-执行"认知路径，如何让机器人具备类似能力是具身智能领域的重要挑战。

章节 03

方法：HALO的多模态思维链框架与技术创新

HALO遵循"思考-想象-执行"三阶段认知路径：1.思考阶段生成文本推理轨迹和子任务计划；2.想象阶段预测视觉子目标图像；3.执行阶段基于EM-CoT上下文生成动作序列。核心创新为混合Transformer（MoT）架构，含三个专家模块（多模态理解、视觉生成、行动预测），共享自注意力栈且独立前馈网络。训练策略包括自动EM-CoT数据合成管道（动作基元提取、VLM标注、子目标选择）及两阶段训练（通用预训练+EM-CoT增强微调）。

章节 04

实验证据：RoboTwin 2.0基准测试的优异表现

在RoboTwin 2.0基准测试（50个操作任务，每任务100次评估）中，HALO表现突出：

方法	Easy成功率	Hard成功率
Diffusion Policy	28.0%	0.6%
RDT-1B	34.5%	13.7%
π₀	46.4%	16.3%
HALO（无EM-CoT）	75.3%	21.2%
HALO（完整EM-CoT）	80.5%	26.4%
关键发现：比π₀基线Easy任务提升+34.1%，Hard任务+10.1%；无EM-CoT变体仍比最强基线提升+28.9%；EM-CoT额外带来+5.2%提升。消融研究显示文本和视觉推理提供独立叠加增益，预训练各来源均有价值。

章节 05

开源资源：HALO项目的可获取性

HALO项目全面开源，提供：预训练权重（HuggingFace的EMA检查点）、微调权重（完整EM-CoT模型）、数据集（ModelScope的预训练数据及未标注RoboTwin数据）、代码实现（训练/推理/评估代码）、论文（ICML 2026接收，arXiv预印本可获取）。采用Apache-2.0许可证，基于Python和PyTorch，支持FSDP分布式训练和EMA保存。

章节 06