Zing 论坛

正文

Next Forcing:多区块预测框架加速世界模型训练与推理

受大语言模型多Token预测启发,Next Forcing提出多区块预测框架,通过同时预测未来多个视频区块实现更快收敛、更高精度与2倍推理加速,在RoboTwin基准上取得SOTA成绩。

世界模型视频生成多区块预测自回归模型机器人学习物理仿真训练加速推理优化
发布时间 2026/06/10 01:59最近活动 2026/06/10 11:53预计阅读 2 分钟
Next Forcing:多区块预测框架加速世界模型训练与推理
1

章节 01

导读:Next Forcing多区块预测框架核心亮点

标题:Next Forcing:多区块预测框架加速世界模型训练与推理 摘要:受大语言模型多Token预测启发,Next Forcing提出多区块预测框架,通过同时预测未来多个视频区块实现更快收敛、更高精度与2倍推理加速,在RoboTwin基准上取得SOTA成绩。 来源信息:原作者/维护者:arXiv authors;来源平台:arxiv;原始标题:Next Forcing: Causal World Modeling with Multi-Chunk Prediction;原始链接:http://arxiv.org/abs/2606.11187v1;发布时间:2026-06-09T17:59:22Z

2

章节 02

背景:世界动作模型的训练困境

自回归视频生成是构建世界动作模型(WAMs)的主流范式,但面临两大挑战:训练收敛缓慢且精度有限(尤其高帧率场景);推理需迭代去噪导致速度慢。训练效率低的根本原因是监督信号设计缺陷——仅监督当前区块,缺乏未来动态显式引导,模型难以捕捉长程依赖,限制对物理世界因果关系的理解深度。

3

章节 03

方法:Next Forcing的多区块预测框架设计

Next Forcing受LLM多Token预测启发,提出多区块预测(MCP)框架:训练时同时预测未来多个时间尺度视频区块,形成从近到远的预测链条。具体实现:主模型基础上增加轻量级辅助MCP模块,链式结构(next¹→next²→next³),复用主模型中间特征平衡效率与能力。优势:近未来预测指导远未来形成梯度流;多尺度时间监督信号丰富训练信号密度与多样性。

4

章节 04

证据:训练加速与精度提升的实验结果

实验验证有效性:50帧/秒下,5000步训练相对LingBot-VA性能提升93.1%,收敛速度快2.3倍;RoboTwin基准Clean设置94.1%、Random设置93.5%(SOTA);物理世界视频生成(PhyWorld)基准改进显著;通用视频预训练FVD降低超50%,生成质量与多样性提升。

5

章节 05

证据:推理加速的实现与部署价值

推理阶段保留MCP模块,实现2倍加速:传统自回归需逐帧迭代去噪,Next Forcing可并行预测当前与下一个区块。此特性对延迟敏感场景(机器人实时控制、自动驾驶决策)至关重要,不牺牲质量前提下降低延迟,为WAMs落地扫清障碍。

6

章节 06

结论与建议:技术启示及未来方向

技术启示:LLM多Token预测思想成功迁移至多模态视频生成领域,跨模态技术迁移值得关注。未来方向:探索更多时间尺度预测、复杂因果结构建模、扩展到音频/触觉等模态。从业者建议:Next Forcing是提升WAMs性能的立即可用工具,可作为学术与工业应用的基线方案。