正文

ActionJEPA：基于JEPA世界模型的视觉-语言-动作机器人学习系统

ActionJEPA是罗马大学人工智能与机器人学硕士论文项目，将JEPA世界模型与视觉-语言-动作（VLA）框架结合，用于机器人操作任务的学习与推理。

JEPAVLA机器人学习世界模型模仿学习视觉语言动作Meta AI

发布时间 2026/05/21 20:11最近活动 2026/05/21 20:20预计阅读 2 分钟

章节 01

ActionJEPA项目导读

ActionJEPA是罗马大学人工智能与机器人学硕士论文项目，将Meta提出的JEPA（Joint Embedding Predictive Architecture）世界模型与视觉-语言-动作（VLA）框架相结合，旨在提升机器人在操作任务中的学习效率和泛化能力，解决传统模仿学习数据需求大、难以处理分布外任务变化的问题。

章节 02

项目背景与研究动机

机器人学习领域长期面临核心挑战：如何让机器人从有限演示数据中高效学习复杂操作技能并具备新场景泛化能力。传统模仿学习需大量数据，且难以处理分布外任务变化。近年来，世界模型与VLA框架的结合为解决该问题提供新思路。ActionJEPA是该方向代表性工作，由罗马大学AI与机器人学课程硕士生开发，作为硕士论文核心成果。

章节 03

JEPA世界模型与VLA框架的融合

JEPA是Yann LeCun团队提出的新型世界模型架构，采用联合嵌入预测架构，在表征空间而非像素空间预测，具有计算效率高、泛化能力强、鲁棒性好的优势。VLA框架将视觉感知、语言理解和动作执行统一到端到端模型，能根据语言指令执行物理操作。ActionJEPA的创新在于深度融合两者：利用JEPA学习环境动态模型，通过VLA框架实现语言条件化动作生成，可预测未来状态并规划动作序列。

章节 04

技术实现与系统架构

ActionJEPA基于LIBERO基准测试套件（机器人操作学习评估框架）实现，核心技术栈包括Meta开源JEPA世界模型、LIBERO基准、Hugging Face Transformers。项目解决了PyTorch 2.6+版本权重加载兼容性问题：修改torch.load调用添加weights_only=False参数，并提供修复脚本确保系统稳定运行。

章节 05

数据集与训练流程

ActionJEPA使用LIBERO数据集训练，包含多个子集（总计约100GB）：libero_10（13.7GB，10个基础任务）、libero_90（66.7GB，90个多样化任务）、libero_goal（6.37GB）、libero_object（7.44GB）、libero_spatial（6.24GB）。支持脚本下载和Hugging Face Hub下载两种方式。训练流程：加载预训练视觉和语言编码器，在LIBERO数据上微调，同时训练JEPA学环境动态；推理时接收语言指令和视觉观察，VLA生成动作，JEPA预测未来状态并规划。

章节 06