Zing 论坛

正文

vla_hrm

TRM/HRM recursive reasoning models for PushT robotic control", "canonical_url": "https://github.com/junhahyung/vla_hrm", "published_at": "2026-03-30T11:03:36Z", "source_title": "vla_hrm", "source_summary": "TRM/HRM recursive reasoning models for PushT robotic control", "title": "VLA-HRM:递归推理模型在机器人控制中的创新应用", "summary": "该项目将 TRM(微型递归模型)和 HRM(层次推理模型)应用于机器人操控任务,通过递归权重共享计算和连续观测编码,在 PushT 任务中超越了扩散策略基线。

机器人学习递归模型模仿学习强化学习扩散策略机器人控制开源项目
发布时间 2026/03/30 19:03最近活动 2026/03/30 19:23预计阅读 2 分钟
vla_hrm
1

章节 01

VLA-HRM项目导读:递归推理模型在机器人控制中的创新应用

VLA-HRM项目将原本用于离散推理任务的TRM(微型递归模型)和HRM(层次推理模型)适配到连续机器人控制场景,针对PushT任务(推动T形方块到目标位置),通过连续观测编码、递归权重共享等设计,在性能上超越扩散策略基线,且参数量更高效。

2

章节 02

背景:从离散推理到连续机器人控制的挑战

递归推理模型(如TRM/HRM)最初用于离散任务(数独、迷宫等),但机器人控制(如PushT任务)具有连续观测空间(5维状态:代理位置、方块位置、角度)和连续动作空间(2维目标位置),需长期规划且接触动力学复杂。将离散推理模型适配到连续控制场景是VLA-HRM项目的核心挑战。

3

章节 03

技术方案演进与核心模型架构

项目经历三次迭代:V1(离散观测/动作,失败)→ V2(连续观测+离散动作,部分成功)→ V3(完全连续,突破)。核心架构:TRM采用权重共享的递归设计(单一模块处理高低层,内存高效);HRM引入显式层次(高层规划,低层控制);创新点包括动作查询token支持并行动作解码。

4

章节 04

训练策略与关键优化技巧

项目采用多种训练技巧提升性能:观测噪声增强(高斯噪声防止过拟合)、几何特征工程(手工设计21个几何特征注入领域知识)、数据增强(镜像对称4倍扩展数据)、迭代细化(多步改进动作序列,K=8步达0.942单次分数)。

5

章节 05

实验结果分析与对比

结果显示:HRM V8(h=384)平均分数0.558,超越扩散策略(0.507)且参数量仅为后者1/8;连续回归动作表示优于离散量化;相同配置下TRM略优于HRM(推测PushT层次不明显)。

6

章节 06

关键洞察与未来方向

关键洞察:连续表示对机器人控制至关重要;递归架构适合序列决策;观测增强有效防止过拟合;几何先验加速学习。局限:仅支持状态输入、单任务特化、模拟环境。未来方向:VLA扩展(视觉-语言-动作)、多任务学习、真实机器人验证、与扩散模型融合。