Zing 论坛

正文

CT-1:让视频生成真正理解相机运动的空间智能模型

CT-1 是一个视觉-语言-相机联合模型,通过将空间推理知识迁移到视频生成任务,实现了用户意图对齐的相机可控视频生成,并发布了包含4700万帧的 CT-200K 数据集。

视频生成相机控制空间推理视觉语言模型扩散模型计算机视觉AI视频
发布时间 2026/04/10 16:26最近活动 2026/04/10 16:48预计阅读 2 分钟
CT-1:让视频生成真正理解相机运动的空间智能模型
1

章节 01

CT-1模型核心导读:让视频生成真正理解相机运动的空间智能

CT-1是视觉-语言-相机联合模型,通过迁移空间推理知识到视频生成任务,实现用户意图对齐的相机可控视频生成,并发布包含4700万帧的CT-200K数据集。其核心是"相机优先,生成随后"的两阶段范式,解决现有视频生成中相机控制模糊、缺乏空间推理的问题。

2

章节 02

背景:视频生成的相机控制挑战

近年来扩散模型视频生成质量提升,但核心问题是精确控制相机运动。现有方法依赖模糊文本提示或预定义参数,导致难以对齐用户意图;且相机运动涉及三维空间推理,缺乏该能力的模型易产生物理不合理运动。

3

章节 03

方法:CT-1的两阶段范式与技术创新

CT-1采用"相机优先,生成随后"两阶段范式:1.相机轨迹预测(基于参考图像和文本理解场景语义与空间布局,推断符合意图的轨迹);2.视频生成(以轨迹为条件输入扩散模型生成对齐内容。核心组件包括:视觉-语言模块(建立图像与文本深层关联)、小波正则化扩散Transformer(频率域学习捕捉复杂轨迹分布)、空间感知视频生成模型(确保几何一致性)。

4

章节 04

证据:CT-200K数据集与实验验证

团队构建CT-200K数据集(2000+视频序列、4700万帧),特点为精心筛选(清晰相机运动)、精确标注(内外参)、多样场景(室内/室外/驾驶等)。实验验证:复杂场景前向/旋转运动生成效果好;轨迹可兼容CameraCtrl等现有模型;驾驶场景测试证明跨领域泛化能力。

5

章节 05

对比:CT-1与现有相机控制方法的差异

现有方法分两类:基于显式参数(如CameraCtrl,精确但难处理自然语言)、基于隐式表示(如MotionCtrl,灵活但可解释性差)。CT-1优势:显式轨迹预测(可解释且对接下游模型)、视觉-语言联合理解(处理复杂意图)、频率域学习(小波正则化首次引入轨迹学习)。

6

章节 06

局限与未来方向

CT-1目前未开源(计划论文接收后发布)。未来方向:提升实时性(支持交互式应用)、长视频生成(满足电影制作需求)、增强用户交互(手绘轨迹/关键帧控制)、引入物理仿真(让运动更符合物理规律)。

7

章节 07

行业意义:从"能生成"到"能控制"的突破

CT-1推动视频生成从"好看"到"可控",对电影制作(镜头语言)、虚拟现实(视角切换)、自动驾驶仿真(物理相机运动)至关重要。其展示空间推理价值,提示显式空间理解是突破数据驱动瓶颈的关键。

8

章节 08

总结:CT-1的贡献与展望

CT-1解决视频生成中相机控制难题,通过两阶段范式、视觉-语言建模、频率域学习取得显著进展。期待开源后社区进一步发展,推动技术走向"理解用户意图",为视频生成、计算机视觉等领域提供新方向。