Zing 论坛

正文

MolmoAct2:面向真实世界部署的开放视觉-语言-动作推理模型

MolmoAct2通过专用VLM骨干网络MolmoER、开源动作分词器OpenFAST、流匹配动作专家和自适应深度推理MolmoThink,在7个仿真与真实世界基准测试中超越Pi-05等强基线模型。

VLA modelroboticsvision-language-actionembodied AIopen sourceflow matchingbimanual manipulation具身智能机器人学习
发布时间 2026/05/05 01:51最近活动 2026/05/05 11:50预计阅读 2 分钟
MolmoAct2:面向真实世界部署的开放视觉-语言-动作推理模型
1

章节 01

导读:MolmoAct2——开源VLA模型的真实世界部署突破

MolmoAct2是Allen AI团队推出的完全开源视觉-语言-动作(VLA)模型,专为真实世界部署设计。通过五大核心创新(MolmoER骨干网络、三大新数据集、OpenFAST动作分词器、流匹配连续动作专家架构、MolmoThink自适应推理),在7个仿真与真实世界基准测试中超越Pi-05等强基线,为机器人领域提供开放可扩展的研究平台。

2

章节 02

背景:VLA模型从实验室到真实世界的困境

当前VLA系统面临四大挑战:

  • 封闭性:前沿模型多闭源,无法定制优化
  • 硬件依赖:开源方案绑定昂贵专用硬件
  • 延迟问题:增强推理能力牺牲实时性
  • 成功率瓶颈:微调后仍难满足可靠部署阈值 这些痛点制约VLA技术在工业和服务机器人领域落地。
3

章节 03

核心方法:MolmoAct2的五大创新点

  1. MolmoER骨干:针对空间与具身推理优化,采用"专业化再复习"训练策略,超越GPT-5等闭源模型
  2. 三大新数据集:覆盖双手操作(MolmoAct2-BimanualYAM)、高信噪比Franka子集、低成本平台SO100/101子集
  3. OpenFAST分词器:开源动作离散化工具,打破闭源/平台绑定局限
  4. 流匹配架构:融合离散token VLM与连续动作专家,实现精细控制
  5. MolmoThink推理:自适应更新场景变化区域,降低延迟
4

章节 04

实验证据:全面评估与开源承诺

  • 评估覆盖7个仿真/真实基准,超越Pi-05强基线
  • MolmoER在13个具身推理基准超越GPT-5和Gemini Robotics ER-1.5
  • 跨平台泛化能力:适配Franka到低成本SO100/101
  • 完全开源:模型权重、训练代码、数据全部公开
5

章节 05

技术细节:训练策略与架构融合

  • 训练策略:Specialize-then-Rehearse(先专业化训练机器人任务,再复习通用数据避免过拟合)
  • 流匹配融合:通过KV缓存条件化,将连续动作专家与离散token VLM无缝衔接
  • 自适应推理:场景变化检测+稀疏更新,保持精度同时降低延迟
6

章节 06

行业意义:降低门槛与推动标准化

  • 降低研究门槛:无需依赖闭源API或专用硬件
  • 推动标准化:OpenFAST等工具建立社区复用标准
  • 加速产业落地:适配多成本平台,为产业化铺路
7

章节 07

局限与未来:待解决的挑战与方向

局限

  • 双手数据集规模仍小于工业级
  • 仿真到真实迁移未完全解决
  • 长程复杂任务性能待验证

未来方向

  • 扩大数据规模与多样性
  • 强化仿真到真实迁移技术
  • 提升长程任务规划能力
8

章节 08

结语:开源VLA模型的里程碑

MolmoAct2是开源VLA模型发展的重要里程碑,不仅在性能上超越基线,更提供完全开放的研究平台。其开源特性将推动机器人学习、具身智能领域的进步,为行业落地提供关键基础设施。