正文

Next Forcing：多区块预测框架加速世界模型训练与推理

受大语言模型多Token预测启发，Next Forcing提出多区块预测框架，通过同时预测未来多个视频区块实现更快收敛、更高精度与2倍推理加速，在RoboTwin基准上取得SOTA成绩。

世界模型视频生成多区块预测自回归模型机器人学习物理仿真训练加速推理优化

发布时间 2026/06/10 01:59最近活动 2026/06/10 11:53预计阅读 2 分钟

章节 01

导读：Next Forcing多区块预测框架核心亮点

标题：Next Forcing：多区块预测框架加速世界模型训练与推理摘要：受大语言模型多Token预测启发，Next Forcing提出多区块预测框架，通过同时预测未来多个视频区块实现更快收敛、更高精度与2倍推理加速，在RoboTwin基准上取得SOTA成绩。来源信息：原作者/维护者：arXiv authors；来源平台：arxiv；原始标题：Next Forcing: Causal World Modeling with Multi-Chunk Prediction；原始链接：http://arxiv.org/abs/2606.11187v1；发布时间：2026-06-09T17:59:22Z

章节 02

背景：世界动作模型的训练困境

自回归视频生成是构建世界动作模型（WAMs）的主流范式，但面临两大挑战：训练收敛缓慢且精度有限（尤其高帧率场景）；推理需迭代去噪导致速度慢。训练效率低的根本原因是监督信号设计缺陷——仅监督当前区块，缺乏未来动态显式引导，模型难以捕捉长程依赖，限制对物理世界因果关系的理解深度。

章节 03

方法：Next Forcing的多区块预测框架设计

Next Forcing受LLM多Token预测启发，提出多区块预测（MCP）框架：训练时同时预测未来多个时间尺度视频区块，形成从近到远的预测链条。具体实现：主模型基础上增加轻量级辅助MCP模块，链式结构（next¹→next²→next³），复用主模型中间特征平衡效率与能力。优势：近未来预测指导远未来形成梯度流；多尺度时间监督信号丰富训练信号密度与多样性。

章节 04

证据：训练加速与精度提升的实验结果

实验验证有效性：50帧/秒下，5000步训练相对LingBot-VA性能提升93.1%，收敛速度快2.3倍；RoboTwin基准Clean设置94.1%、Random设置93.5%（SOTA）；物理世界视频生成（PhyWorld）基准改进显著；通用视频预训练FVD降低超50%，生成质量与多样性提升。

章节 05