章节 01
CT-1模型核心导读:让视频生成真正理解相机运动的空间智能
CT-1是视觉-语言-相机联合模型,通过迁移空间推理知识到视频生成任务,实现用户意图对齐的相机可控视频生成,并发布包含4700万帧的CT-200K数据集。其核心是"相机优先,生成随后"的两阶段范式,解决现有视频生成中相机控制模糊、缺乏空间推理的问题。
正文
CT-1 是一个视觉-语言-相机联合模型,通过将空间推理知识迁移到视频生成任务,实现了用户意图对齐的相机可控视频生成,并发布了包含4700万帧的 CT-200K 数据集。
章节 01
CT-1是视觉-语言-相机联合模型,通过迁移空间推理知识到视频生成任务,实现用户意图对齐的相机可控视频生成,并发布包含4700万帧的CT-200K数据集。其核心是"相机优先,生成随后"的两阶段范式,解决现有视频生成中相机控制模糊、缺乏空间推理的问题。
章节 02
近年来扩散模型视频生成质量提升,但核心问题是精确控制相机运动。现有方法依赖模糊文本提示或预定义参数,导致难以对齐用户意图;且相机运动涉及三维空间推理,缺乏该能力的模型易产生物理不合理运动。
章节 03
CT-1采用"相机优先,生成随后"两阶段范式:1.相机轨迹预测(基于参考图像和文本理解场景语义与空间布局,推断符合意图的轨迹);2.视频生成(以轨迹为条件输入扩散模型生成对齐内容。核心组件包括:视觉-语言模块(建立图像与文本深层关联)、小波正则化扩散Transformer(频率域学习捕捉复杂轨迹分布)、空间感知视频生成模型(确保几何一致性)。
章节 04
团队构建CT-200K数据集(2000+视频序列、4700万帧),特点为精心筛选(清晰相机运动)、精确标注(内外参)、多样场景(室内/室外/驾驶等)。实验验证:复杂场景前向/旋转运动生成效果好;轨迹可兼容CameraCtrl等现有模型;驾驶场景测试证明跨领域泛化能力。
章节 05
现有方法分两类:基于显式参数(如CameraCtrl,精确但难处理自然语言)、基于隐式表示(如MotionCtrl,灵活但可解释性差)。CT-1优势:显式轨迹预测(可解释且对接下游模型)、视觉-语言联合理解(处理复杂意图)、频率域学习(小波正则化首次引入轨迹学习)。
章节 06
CT-1目前未开源(计划论文接收后发布)。未来方向:提升实时性(支持交互式应用)、长视频生成(满足电影制作需求)、增强用户交互(手绘轨迹/关键帧控制)、引入物理仿真(让运动更符合物理规律)。
章节 07
CT-1推动视频生成从"好看"到"可控",对电影制作(镜头语言)、虚拟现实(视角切换)、自动驾驶仿真(物理相机运动)至关重要。其展示空间推理价值,提示显式空间理解是突破数据驱动瓶颈的关键。
章节 08
CT-1解决视频生成中相机控制难题,通过两阶段范式、视觉-语言建模、频率域学习取得显著进展。期待开源后社区进一步发展,推动技术走向"理解用户意图",为视频生成、计算机视觉等领域提供新方向。