Zing 论坛

正文

Uni-ViGU:基于扩散视频生成器的统一视频生成与理解框架

本文介绍Uni-ViGU框架,通过以视频生成器为基础架构,采用统一流匹配方法和模态驱动MoE设计,结合双向训练机制,实现视频生成与理解的统一,验证生成中心架构的可扩展性。

视频生成多模态模型扩散模型视频理解统一架构流匹配
发布时间 2026/04/09 19:41最近活动 2026/04/10 10:48预计阅读 2 分钟
Uni-ViGU:基于扩散视频生成器的统一视频生成与理解框架
1

章节 01

导读:Uni-ViGU框架的核心创新与价值

本文介绍Uni-ViGU框架,通过以视频生成器为基础架构,采用统一流匹配方法、模态驱动MoE设计及双向训练机制,实现视频生成与理解的统一,验证生成中心架构的可扩展性,解决传统以理解为中心架构的计算困境。

2

章节 02

背景:统一多模态模型的计算困境

当前多模态模型存在视觉理解与生成的割裂轨迹,生成任务计算成本远高于理解(扩散生成需数十到数百步迭代,理解仅需一步)。传统以理解为中心的架构面临架构不匹配(离散token与连续潜在空间转换损失)、优化目标冲突(判别性与生成性特征难以兼顾)、计算效率低下(叠加生成能力导致资源浪费)等局限。

3

章节 03

方法:范式反转——以视频生成器为架构基石

Uni-ViGU反转传统范式,以视频扩散生成器为基础架构:

  • 生成先验丰富:扩散模型学习视频数据完整分布,蕴含深度视觉知识;
  • 连续表示优势:避免离散token化信息瓶颈,适配高维视频数据;
  • 可扩展架构:基于Transformer/DiT,随规模增长性能持续提升。
4

章节 04

方法:统一流匹配与模态驱动MoE设计

统一流匹配

  • 连续流匹配:视频模态采用标准连续流变换;
  • 离散流匹配:文本模态创新性引入离散流变换;
  • 协同生成:一次前向传播同时处理视频与文本生成,实现多模态联合建模。

模态驱动MoE

  • 保留生成核心:视频生成参数与路径不变;
  • 轻量文本专家:注入小参数量文本层;
  • 模态路由:动态激活文本层,按需分配资源。
5

章节 05

方法:双向训练机制——生成到理解的桥梁

知识召回阶段

  • 重构输入提示:从视频潜在表示重构生成提示,学习视觉-文本对应关系;
  • 双向对应学习:建立文本到视频、视频到文本的双向映射。

能力精炼阶段

  • 详细字幕微调:用细粒度字幕训练生成准确描述;
  • 判别性表示建立:生成与理解共享特征,实现双向能力。
6

章节 06

证据:生成与理解的双重竞争力验证

  • 视频生成性能:与专门生成模型相当甚至更优;
  • 视频理解性能:在问答、字幕生成等任务达到专门理解模型竞争水平;
  • 可扩展性:模型规模增长时,生成与理解性能持续提升,无优化困境。
7

章节 07

建议:技术启示与未来研究方向

  • 范式选择:生成作为基础架构更具可扩展性;
  • 生成先验价值:挖掘扩散模型生成先验的通用应用;
  • 双向训练创新:扩展到其他模态与任务组合。
8

章节 08

结论:生成中心架构的可扩展新路径

Uni-ViGU通过范式反转(生成器为基础)、统一流匹配、模态驱动MoE、双向训练三重创新,实现单一模型在视频生成与理解的双重竞争力。生成中心架构为下一代统一多模态系统提供重要设计选择,项目开源将推动社区探索。