Zing 论坛

正文

TempoVLA:让机器人以可控速度执行任务的视觉-语言-动作模型

研究人员提出了一种可控制执行速度的VLA模型,使机器人能在低风险阶段快速移动,在高风险接触阶段减速精确操作。

视觉-语言-动作模型机器人控制速度控制轨迹增强动态执行
发布时间 2026/06/05 01:59最近活动 2026/06/05 18:19预计阅读 3 分钟
TempoVLA:让机器人以可控速度执行任务的视觉-语言-动作模型
1

章节 01

TempoVLA:可控速度的视觉-语言-动作模型导读

TempoVLA核心亮点 研究团队提出TempoVLA模型,解决现有视觉-语言-动作(VLA)模型固定速度的局限,实现机器人在低风险阶段快速移动、高风险接触阶段减速精确操作。其核心洞察为动作幅度决定执行速度,通过双组件架构(变速轨迹增强VSTA+速度条件机制)实现灵活速度控制,已在仿真与真实任务中验证有效性,为机器人操作系统提供新基础。

原作者/来源

  • 作者团队:论文作者团队
  • 来源:arXiv
  • 原文标题:TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies
  • 链接:http://arxiv.org/abs/2606.06491v1
  • 发布时间:2026年6月4日
2

章节 02

问题背景:固定速度VLA的局限

问题背景:固定速度的局限

机器人操作包含低风险过渡(如移动到目标)和高风险接触(如抓取装配)阶段,人类可动态调整速度,但现有VLA模型仅继承训练演示的单一固定速度。

现有方案不足

此前加速VLA的方法(模型压缩、KV缓存复用、强化学习微调)仅能切换固定速度,无法动态调整;且减速问题未被充分探索,高风险阶段难以精确慢速执行。

3

章节 03

TempoVLA架构:双组件协同实现速度控制

TempoVLA双组件架构

核心洞察

动作幅度(关节/末端执行器位姿变化量)决定机器人移动速度:幅度大则执行时间长(慢),幅度小则快。

1. 数据端:变速轨迹增强(VSTA)

  • 加速:合并相邻动作增大幅度,快速完成运动
  • 减速:拆分动作减小幅度,慢速执行
  • 效果:保持运动语义,精确达目标速度,提升1倍速默认性能

2. 模型端:速度条件机制

将目标速度作为显式输入馈送策略网络,生成对应幅度动作,实现灵活速度控制。

4

章节 04

实验验证:从仿真到真实世界的效果

实验验证结果

双向速度控制

  • 低风险过渡阶段:快速移动节省时间
  • 高风险接触阶段:慢速执行提高成功率

动态速度调节

与大型多模态模型(LMM)配合:

  • LMM分析场景判断风险等级,发送速度指令(如接近目标减速、远离障碍物加速)
  • 分层架构结合高层场景理解与低层运动控制,展现端到端系统方向
5

章节 05

技术贡献与工程意义

技术贡献与工程意义

理论层面

  • 揭示动作幅度与执行速度的本质关系
  • 提出变速学习新范式(数据增强而非修改模型结构)

工程层面

  • 单一模型支持多速度,无需训练多个模型
  • 速度条件即插即用,易集成现有VLA架构
  • VSTA提升数据利用率,增强基础性能

应用场景

  • 工业装配:快速接近+慢速装配
  • 服务机器人:依环境复杂度动态调速
  • 医疗机器人:高风险操作极慢,过渡阶段快速
6

章节 06

局限与未来研究方向

局限与未来方向

现有局限

  1. 速度范围受训练数据覆盖限制
  2. 极端速度(超训练分布)泛化性差
  3. 动态控制依赖LMM场景分析,可能增加推理延迟

未来研究

  • 结合强化学习优化速度策略
  • 探索无速度标签的自监督变速学习
  • 扩展到人形、软体机器人等复杂形态