章节 01
【导读】DeepThinkVLA:赋予VLA模型显式推理能力的创新框架
DeepThinkVLA由OpenBMB团队开发,通过混合注意力解码器和显式思维链(CoT)机制,解决现有视觉-语言-动作(VLA)模型缺乏显式推理的问题,显著提升决策质量与任务成功率。该框架在LIBERO基准测试中达到97%的平均成功率,为具身智能领域提供可解释、高鲁棒性的解决方案。
正文
DeepThinkVLA通过混合注意力解码器和显式思维链机制,显著提升了VLA模型的推理能力,在LIBERO基准上达到97%的平均成功率。
章节 01
DeepThinkVLA由OpenBMB团队开发,通过混合注意力解码器和显式思维链(CoT)机制,解决现有视觉-语言-动作(VLA)模型缺乏显式推理的问题,显著提升决策质量与任务成功率。该框架在LIBERO基准测试中达到97%的平均成功率,为具身智能领域提供可解释、高鲁棒性的解决方案。
章节 02
VLA模型是机器人控制的重要方向,能根据视觉观测和自然语言指令生成动作序列。但现有VLA模型多采用端到端反应式架构,缺乏显式推理,面对复杂任务或意外时表现不佳。DeepThinkVLA借鉴大语言模型CoT提示技术,将其创新性应用于具身智能领域,让机器人执行动作前先"思考"以提升决策质量。
章节 03
DeepThinkVLA的核心是混合注意力解码器架构:将29亿参数解码器分为两阶段——自回归推理阶段生成完整思维链,随后切换双向注意力机制并行输出动作块,解决模态冲突问题。针对推理延迟,提出Masked-CoT策略,屏蔽推理token保留动作相关信息,在保持96.5%成功率的同时,延迟仅为基线的0.175倍。
章节 04
数据引擎:两阶段CoT标注流水线——1.关键帧提取+云端大型视觉语言模型(LVLM)生成标注+人工审核;2.用高质量样本微调本地VLM自动标注剩余帧,确保轨迹连贯性。构建的LIBERO CoT数据集已开源。
训练流程:两阶段训练——1.监督微调(SFT)用交叉熵损失学习推理-动作协同;2.基于分组强化策略优化(GRPO)的强化学习,通过稀疏奖励标准化、KL正则化等提升长时程任务性能(LIBERO-Long任务从94.2%提升至96.2%)。
章节 05
LIBERO基准:平均成功率97%(Object类99%、Spatial类96.6%、Goal类96.4%、Long类96.2%),超越自回归、扩散模型等基线。
架构对比:混合解码器比自回归CoT变体提升15.5%;随机CoT性能降至85.1%,证明推理质量的重要性。
零样本迁移:在LIBERO Plus(物体布局、指令等扰动)上零样本测试,总体成功率79%,鲁棒性良好。
章节 06
自我纠错能力:显式推理机制让模型能识别执行失误(如物体掉落),通过思维链指导恢复动作,而反应式基线易停滞。
研究意义:从端到端黑盒映射转向可解释、可调试的显式推理,提升机器人系统安全性与可控性。未来可期待强化学习与VLA进一步融合,推动智能机器人落地。
章节 07
开源资源:模型权重(base/SFT/RL版本)、LIBERO CoT数据集、训练评估脚本、DeepSpeed配置等。
环境要求:Linux/WSL+NVIDIA GPU(CUDA12.x)、Python≥3.10,SFT需8x80GB GPU。
使用提示:评估时启用Masked-CoT可降低延迟,项目基于Hugging Face等组件构建并致谢相关项目。