正文

MOSS-Video-Preview：基于Llama-3.2-Vision的实时视频理解基础模型

MOSS-Video-Preview是一款专为实时视频理解设计的多模态视觉基础模型，通过原生交叉注意力架构实现毫秒级交互和超低延迟推理。

视频理解多模态模型实时推理Llama-3.2-Vision交叉注意力流式处理OpenMOSS

发布时间 2026/04/08 22:04最近活动 2026/04/08 22:24预计阅读 19 分钟

章节 01

导读 / 主楼：MOSS-Video-Preview：基于Llama-3.2-Vision的实时视频理解基础模型

MOSS-Video-Preview是一款专为实时视频理解设计的多模态视觉基础模型，通过原生交叉注意力架构实现毫秒级交互和超低延迟推理。

章节 02

背景

MOSS-Video-Preview：实时视频理解的新突破\n\n在视频理解领域，如何在保持高质量推理的同时实现实时交互，一直是困扰研究者的核心难题。复旦大学OpenMOSS团队最新开源的MOSS-Video-Preview项目，基于Llama-3.2-Vision架构，通过创新的交叉注意力机制，为这一难题提供了令人瞩目的解决方案。\n\n## 项目定位与愿景\n\nMOSS-Video-Preview是一款专为实时视频理解设计的多模态视觉基础模型。与当前主流的视频理解模型不同，它从架构层面就针对"实时性"进行了原生设计，而非事后优化。\n\n项目团队明确表示，当前版本是一个探索性项目，旨在验证交叉注意力架构在原生实时视频理解中的潜力。他们已承诺在数据规模、参数规模和上下文规模三个维度进行全面扩展，目标是构建更强大、更通用的视频智能系统。\n\n## 核心技术创新\n\n### 1. 图像-视频交叉注意力架构\n\nMOSS-Video-Preview最显著的技术突破在于其原生交叉注意力机制。传统视频理解模型往往采用统一处理图像和视频的架构，这导致在处理超长时序序列时面临性能瓶颈。\n\nMOSS-Video-Preview通过交叉注意力实现了视觉特征和语言特征的深度解耦：\n\n- 视觉编码器专注于提取时空特征\n- 语言模型通过交叉注意力层动态关注相关视觉区域\n- 这种设计允许模型无缝处理从单张图片到超长视频的连续输入\n\n这种架构的优势在于，模型不需要为不同长度的输入重新调整，天然支持流式处理。\n\n### 2. 毫秒级交互与动态自校正\n\n实时视频理解的关键在于低延迟响应。MOSS-Video-Preview支持"静默"和"说话"模式之间的无缝切换：\n\n- 在静默模式下，模型持续接收视频流并维护内部状态\n- 当用户提问时，模型可以立即基于当前上下文生成回答\n- 支持实时打断，允许用户根据视频场景变化动态调整或优化回答\n\n这种全双工交互体验，让模型真正具备了"边看边说"的能力，而非传统的"看完再说"。\n\n### 3. 极致推理性能与内核优化\n\n为了实现实时性能，团队在底层进行了深度优化：\n\n- 优化的交叉注意力内核：针对长视频处理场景专门调优\n- Flash Attention 2加速：在CUDA和NPU平台上均实现了显著加速\n- 超低延迟设计：在保持高质量推理的同时，大幅降低内存开销\n\n根据官方提供的性能数据，在NVIDIA H200单卡上，处理256帧视频时：\n\n| 指标 | MOSS-Video-Preview | Qwen2.5-VL-7B | 提升倍数 |\n|-----|-------------------|---------------|---------|\n| 平均首token延迟(TTFT) | 1.95秒 | 9.94秒 | ~5× |\n| 平均解码吞吐(TPS) | 38.41 tokens/s | 14.26 tokens/s | ~2.7× |\n| 总延迟 | 28.51秒 | 52.76秒 | 显著降低 |\n\n值得注意的是，MOSS-Video-Preview的参数规模为11B，大于Qwen2.5-VL-7B的7B，但在速度上仍有显著优势，这充分说明了其架构设计的有效性。\n\n### 4. 细粒度数据合成管线\n\n高质量的训练数据是模型性能的基石。团队构建了一套专为实时视频理解设计的数据合成管线，利用最先进的多模态大模型生成训练数据。这些数据集将在近期开源，为研究社区提供宝贵资源。\n\n## 四阶段渐进式训练策略\n\nMOSS-Video-Preview采用精心设计的四阶段训练策略，让模型从基础模态对齐逐步进化到复杂的实时视频推理：\n\n### 阶段一：跨模态对齐（PT-Stage 1）\n\n- 可训练参数：仅视觉投影器\n- 数据配比：0%文本 / 79%图像 / 21%视频\n- 训练样本：1510万\n- 目标：建立视觉和语言模态之间的初步对齐\n\n### 阶段二：时序与长视频感知（PT-Stage 2）\n\n- 可训练参数：全部参数\n- 数据配比：0%文本 / 26%图像 / 74%视频\n- 训练样本：180万\n- 目标：培养模型对时序关系的理解能力\n\n### 阶段三：离线指令遵循（Offline SFT）\n\n- 可训练参数：全部参数\n- 数据配比：14%文本 / 44%图像 / 42%视频\n- 训练样本：860万\n- 目标：让模型学会遵循复杂指令并进行推理\n\n### 阶段四：实时理解微调（Real-Time SFT）\n\n- 可训练参数：全部参数\n- 数据配比：11%文本 / 29%图像 / 60%视频\n- 训练样本：83.6万\n- 目标：专门针对实时交互场景进行优化\n\n这种渐进式策略确保了模型在每个阶段都建立在前一阶段的基础上，最终获得全面的多模态能力。\n\n## 性能评估与基准测试\n\nMOSS-Video-Preview在多个视频和图像基准测试中表现出色：\n\n### 视频逻辑推理\n\n在Video-Holmes基准测试中，MOSS-Video-Preview取得了39.9分，显著超越Qwen 2.5-VL (32B)的38.4分和其他7B级别模型，展示了其先进的逻辑推理能力。\n\n### 视频综合感知\n\n- VideoMME：62.4分（Llama 3.2基线：46.0分）\n- LongVideoBench：54.2分（Llama 3.2基线：45.5分）\n\n这些成绩证明了模型在处理一般视频和长时序依赖方面的有效性。\n\n### 图像理解能力\n\n尽管针对视频进行了优化，MOSS-Video-Preview在图像任务上仍保持强劲表现：\n\n- MMBench (EN)：77.3分（Llama 3.2基线：72.8分）\n- MMMU (Val)：48.6分（与Llama 3.2基线持平）\n\n这种平衡的多模态能力，确保了模型作为通用视频智能基础的潜力。\n\n## 实时推理流程解析\n\nMOSS-Video-Preview的实时推理流程是其架构设计的集中体现：\n\n### 异步实时输入\n\n视频帧以稳定帧率持续注入，实现高频实时感知。输入过程是非阻塞的，与文本生成循环完全解耦，确保视觉跟踪不会中断。\n\n### 长程状态持久化\n\n利用交叉注意力KV缓存和时序位置编码，模型能够在连续帧之间保持稳健的上下文依赖关系，确保对扩展序列的连贯时序理解。\n\n### 超低延迟流式响应\n\n模型支持在接收视频流的同时进行自回归生成。通过消除全片段缓冲的需求，实现了"即时"推理和交互，端到端延迟极低。\n\n### 核心组件\n\n1. 跨模态投影器：采用专有的VideoMllamaTextCrossAttention机制，通过双向交叉注意力实现时序视觉特征和语言上下文之间的高效融合和语义对齐。\n\n2. 流式因果解码模块：专为基于动态视觉输入的自回归生成设计的解码器。它具备动态适应能力，能够根据从流中捕获的最新视觉线索实时调整和优化生成内容。\n\n## 模型变体与获取\n\nMOSS-Video-Preview提供三个不同阶段的模型：\n\n| 模型 | HuggingFace | ModelScope | 说明 |\n|-----|------------|-----------|------|\n| moss-video-preview-base | 下载 | 下载 | 预训练基础模型 |\n| moss-video-preview-sft | 下载 | 下载 | 指令微调模型 |\n| moss-video-preview-realtime-sft | 下载 | 下载 | 实时微调模型 |\n\n## 应用场景与使用方式\n\nMOSS-Video-Preview支持多种推理模式：\n\n### 离线推理\n\n适合批量处理或分析预录制视频：\n\n`bash\npython -m inference.offline_infer \\\n --checkpoint models/moss-video-sft \\\n --video_path data/example_video.mp4 \\\n --prompt \"Describe the video.\" \\\n --max_new_tokens 512\n`\n\n### 实时流式推理\n\n适合直播或低延迟应用：\n\n`bash\npython -m inference.realtime_streaming_infer \\\n --checkpoint models/moss-video-realtime-sft \\\n --video_path data/example_video.mp4 \\\n --prompt \"Describe the video.\" \\\n --max_new_tokens 512\n`\n\n流式推理使用统一管线，帧被送入image_queue，token从token_queue实时消费。\n\n## 训练与微调\n\nMOSS-Video-Preview通过LlamaFactory集成支持多种训练模式：\n\n| 模式 | 显存需求 | 推荐硬件 | 配置文件 |\n|-----|---------|---------|---------|\n| 预训练(PT) | ~80GB | H100/H200 | mllm_pretrain_1node.yaml |\n| 离线SFT | ~80GB | H100/H200 | mllm_offline_sft_1node.yaml |\n| 实时SFT | ~80GB | H100/H200 | mllm_realtime_sft_1node.yaml |\n\n训练命令示例：\n\n`bash\nFORCE_TORCHRUN=1 llamafactory-cli train train_config/mllm_pretrain_1node.yaml\n`\n\n## 局限性与未来展望\n\n团队坦诚地指出了当前版本的局限性：\n\n1. 性能差距：虽然实时理解能力已得到验证，但与Qwen2.5-VL等顶级半开源模型相比仍存在性能差距。缩小这一差距是未来迭代的重点。\n\n2. 训练框架：当前训练管线主要针对架构验证进行了优化。团队计划集成Megatron-LM框架，利用先进的3D并行（张量、流水线和数据并行）进行大规模预训练和微调。\n\n3. 数据规模：当前训练主要依赖公开数据集。未来将扩展多模态数据的规模和多样性，以增强模型在更广泛真实场景中的泛化能力和整体鲁棒性。\n\n## 技术生态与关联项目\n\nMOSS-Video-Preview是OpenMOSS视频智能研究体系的一部分。团队同期还开源了：\n\n- MOSS-VL：基础视觉语言模型，提供MOSS-VL-Base和MOSS-VL-Instruct两个版本\n\n这种协同开源策略，为研究社区提供了从基础到应用的完整工具链。\n\n## 总结与启示\n\nMOSS-Video-Preview代表了视频理解领域向"实时化"演进的重要尝试。其核心贡献在于：\n\n1. 架构创新：原生交叉注意力设计，从根本上解决了视频流式处理的效率问题\n2. 工程优化：深度内核优化和Flash Attention 2集成，实现了理论到实践的跨越\n3. 开放生态：完整开源代码、模型权重和训练配置，推动社区共同进步\n\n对于关注多模态AI的开发者而言，MOSS-Video-Preview不仅是一个可用的工具，更是一份关于如何构建实时视频理解系统的技术蓝图。其设计理念——从架构层面原生支持实时性，而非事后优化——值得所有相关领域的研究者借鉴。\n\n随着数据规模、参数规模和上下文长度的持续扩展，MOSS-Video-Preview有望成为视频智能领域的重要基础设施。

章节 03

补充观点 1

MOSS-Video-Preview：实时视频理解的新突破\n\n在视频理解领域，如何在保持高质量推理的同时实现实时交互，一直是困扰研究者的核心难题。复旦大学OpenMOSS团队最新开源的MOSS-Video-Preview项目，基于Llama-3.2-Vision架构，通过创新的交叉注意力机制，为这一难题提供了令人瞩目的解决方案。\n\n项目定位与愿景\n\nMOSS-Video-Preview是一款专为实时视频理解设计的多模态视觉基础模型。与当前主流的视频理解模型不同，它从架构层面就针对"实时性"进行了原生设计，而非事后优化。\n\n项目团队明确表示，当前版本是一个探索性项目，旨在验证交叉注意力架构在原生实时视频理解中的潜力。他们已承诺在数据规模、参数规模和上下文规模三个维度进行全面扩展，目标是构建更强大、更通用的视频智能系统。\n\n核心技术创新\n\n1. 图像-视频交叉注意力架构\n\nMOSS-Video-Preview最显著的技术突破在于其原生交叉注意力机制。传统视频理解模型往往采用统一处理图像和视频的架构，这导致在处理超长时序序列时面临性能瓶颈。\n\nMOSS-Video-Preview通过交叉注意力实现了视觉特征和语言特征的深度解耦：\n\n- 视觉编码器专注于提取时空特征\n- 语言模型通过交叉注意力层动态关注相关视觉区域\n- 这种设计允许模型无缝处理从单张图片到超长视频的连续输入\n\n这种架构的优势在于，模型不需要为不同长度的输入重新调整，天然支持流式处理。\n\n2. 毫秒级交互与动态自校正\n\n实时视频理解的关键在于低延迟响应。MOSS-Video-Preview支持"静默"和"说话"模式之间的无缝切换：\n\n- 在静默模式下，模型持续接收视频流并维护内部状态\n- 当用户提问时，模型可以立即基于当前上下文生成回答\n- 支持实时打断，允许用户根据视频场景变化动态调整或优化回答\n\n这种全双工交互体验，让模型真正具备了"边看边说"的能力，而非传统的"看完再说"。\n\n3. 极致推理性能与内核优化\n\n为了实现实时性能，团队在底层进行了深度优化：\n\n- 优化的交叉注意力内核：针对长视频处理场景专门调优\n- Flash Attention 2加速：在CUDA和NPU平台上均实现了显著加速\n- 超低延迟设计：在保持高质量推理的同时，大幅降低内存开销\n\n根据官方提供的性能数据，在NVIDIA H200单卡上，处理256帧视频时：\n\n| 指标 | MOSS-Video-Preview | Qwen2.5-VL-7B | 提升倍数 |\n|-----|-------------------|---------------|---------|\n| 平均首token延迟(TTFT) | 1.95秒 | 9.94秒 | ~5× |\n| 平均解码吞吐(TPS) | 38.41 tokens/s | 14.26 tokens/s | ~2.7× |\n| 总延迟 | 28.51秒 | 52.76秒 | 显著降低 |\n\n值得注意的是，MOSS-Video-Preview的参数规模为11B，大于Qwen2.5-VL-7B的7B，但在速度上仍有显著优势，这充分说明了其架构设计的有效性。\n\n4. 细粒度数据合成管线\n\n高质量的训练数据是模型性能的基石。团队构建了一套专为实时视频理解设计的数据合成管线，利用最先进的多模态大模型生成训练数据。这些数据集将在近期开源，为研究社区提供宝贵资源。\n\n四阶段渐进式训练策略\n\nMOSS-Video-Preview采用精心设计的四阶段训练策略，让模型从基础模态对齐逐步进化到复杂的实时视频推理：\n\n阶段一：跨模态对齐（PT-Stage 1）\n\n- 可训练参数：仅视觉投影器\n- 数据配比：0%文本 / 79%图像 / 21%视频\n- 训练样本：1510万\n- 目标：建立视觉和语言模态之间的初步对齐\n\n阶段二：时序与长视频感知（PT-Stage 2）\n\n- 可训练参数：全部参数\n- 数据配比：0%文本 / 26%图像 / 74%视频\n- 训练样本：180万\n- 目标：培养模型对时序关系的理解能力\n\n阶段三：离线指令遵循（Offline SFT）\n\n- 可训练参数：全部参数\n- 数据配比：14%文本 / 44%图像 / 42%视频\n- 训练样本：860万\n- 目标：让模型学会遵循复杂指令并进行推理\n\n阶段四：实时理解微调（Real-Time SFT）\n\n- 可训练参数：全部参数\n- 数据配比：11%文本 / 29%图像 / 60%视频\n- 训练样本：83.6万\n- 目标：专门针对实时交互场景进行优化\n\n这种渐进式策略确保了模型在每个阶段都建立在前一阶段的基础上，最终获得全面的多模态能力。\n\n性能评估与基准测试\n\nMOSS-Video-Preview在多个视频和图像基准测试中表现出色：\n\n视频逻辑推理\n\n在Video-Holmes基准测试中，MOSS-Video-Preview取得了39.9分，显著超越Qwen 2.5-VL (32B)的38.4分和其他7B级别模型，展示了其先进的逻辑推理能力。\n\n视频综合感知\n\n- VideoMME：62.4分（Llama 3.2基线：46.0分）\n- LongVideoBench：54.2分（Llama 3.2基线：45.5分）\n\n这些成绩证明了模型在处理一般视频和长时序依赖方面的有效性。\n\n图像理解能力\n\n尽管针对视频进行了优化，MOSS-Video-Preview在图像任务上仍保持强劲表现：\n\n- MMBench (EN)：77.3分（Llama 3.2基线：72.8分）\n- MMMU (Val)：48.6分（与Llama 3.2基线持平）\n\n这种平衡的多模态能力，确保了模型作为通用视频智能基础的潜力。\n\n实时推理流程解析\n\nMOSS-Video-Preview的实时推理流程是其架构设计的集中体现：\n\n异步实时输入\n\n视频帧以稳定帧率持续注入，实现高频实时感知。输入过程是非阻塞的，与文本生成循环完全解耦，确保视觉跟踪不会中断。\n\n长程状态持久化\n\n利用交叉注意力KV缓存和时序位置编码，模型能够在连续帧之间保持稳健的上下文依赖关系，确保对扩展序列的连贯时序理解。\n\n超低延迟流式响应\n\n模型支持在接收视频流的同时进行自回归生成。通过消除全片段缓冲的需求，实现了"即时"推理和交互，端到端延迟极低。\n\n核心组件\n\n1. 跨模态投影器：采用专有的VideoMllamaTextCrossAttention机制，通过双向交叉注意力实现时序视觉特征和语言上下文之间的高效融合和语义对齐。\n\n2. 流式因果解码模块：专为基于动态视觉输入的自回归生成设计的解码器。它具备动态适应能力，能够根据从流中捕获的最新视觉线索实时调整和优化生成内容。\n\n模型变体与获取\n\nMOSS-Video-Preview提供三个不同阶段的模型：\n\n| 模型 | HuggingFace | ModelScope | 说明 |\n|-----|------------|-----------|------|\n| moss-video-preview-base | 下载 | 下载 | 预训练基础模型 |\n| moss-video-preview-sft | 下载 | 下载 | 指令微调模型 |\n| moss-video-preview-realtime-sft | 下载 | 下载 | 实时微调模型 |\n\n应用场景与使用方式\n\nMOSS-Video-Preview支持多种推理模式：\n\n离线推理\n\n适合批量处理或分析预录制视频：\n\nbash\npython -m inference.offline_infer \\\n --checkpoint models/moss-video-sft \\\n --video_path data/example_video.mp4 \\\n --prompt \"Describe the video.\" \\\n --max_new_tokens 512\n\n\n实时流式推理\n\n适合直播或低延迟应用：\n\nbash\npython -m inference.realtime_streaming_infer \\\n --checkpoint models/moss-video-realtime-sft \\\n --video_path data/example_video.mp4 \\\n --prompt \"Describe the video.\" \\\n --max_new_tokens 512\n\n\n流式推理使用统一管线，帧被送入image_queue，token从token_queue实时消费。\n\n训练与微调\n\nMOSS-Video-Preview通过LlamaFactory集成支持多种训练模式：\n\n| 模式 | 显存需求 | 推荐硬件 | 配置文件 |\n|-----|---------|---------|---------|\n| 预训练(PT) | ~80GB | H100/H200 | mllm_pretrain_1node.yaml |\n| 离线SFT | ~80GB | H100/H200 | mllm_offline_sft_1node.yaml |\n| 实时SFT | ~80GB | H100/H200 | mllm_realtime_sft_1node.yaml |\n\n训练命令示例：\n\nbash\nFORCE_TORCHRUN=1 llamafactory-cli train train_config/mllm_pretrain_1node.yaml\n\n\n局限性与未来展望\n\n团队坦诚地指出了当前版本的局限性：\n\n1. 性能差距：虽然实时理解能力已得到验证，但与Qwen2.5-VL等顶级半开源模型相比仍存在性能差距。缩小这一差距是未来迭代的重点。\n\n2. 训练框架：当前训练管线主要针对架构验证进行了优化。团队计划集成Megatron-LM框架，利用先进的3D并行（张量、流水线和数据并行）进行大规模预训练和微调。\n\n3. 数据规模：当前训练主要依赖公开数据集。未来将扩展多模态数据的规模和多样性，以增强模型在更广泛真实场景中的泛化能力和整体鲁棒性。\n\n技术生态与关联项目\n\nMOSS-Video-Preview是OpenMOSS视频智能研究体系的一部分。团队同期还开源了：\n\n- MOSS-VL：基础视觉语言模型，提供MOSS-VL-Base和MOSS-VL-Instruct两个版本\n\n这种协同开源策略，为研究社区提供了从基础到应用的完整工具链。\n\n总结与启示\n\nMOSS-Video-Preview代表了视频理解领域向"实时化"演进的重要尝试。其核心贡献在于：\n\n1. 架构创新：原生交叉注意力设计，从根本上解决了视频流式处理的效率问题\n2. 工程优化：深度内核优化和Flash Attention 2集成，实现了理论到实践的跨越\n3. 开放生态：完整开源代码、模型权重和训练配置，推动社区共同进步\n\n对于关注多模态AI的开发者而言，MOSS-Video-Preview不仅是一个可用的工具，更是一份关于如何构建实时视频理解系统的技术蓝图。其设计理念——从架构层面原生支持实时性，而非事后优化——值得所有相关领域的研究者借鉴。\n\n随着数据规模、参数规模和上下文长度的持续扩展，MOSS-Video-Preview有望成为视频智能领域的重要基础设施。

MOSS-Video-Preview：基于Llama-3.2-Vision的实时视频理解基础模型

导读 / 主楼：MOSS-Video-Preview：基于Llama-3.2-Vision的实时视频理解基础模型

背景

补充观点 1

继续阅读

Splinter：一款无锁零拷贝的共享内存 KV 与向量存储库，让 LLM 推理告别 socket 与 memcpy 开销

Azure GPU 虚拟机实战：4x V100 本地部署 70B+ 大模型的完整方案

ClawDeFi Agent Skill：构建可扩展的 DeFi 智能代理系统

LiteMind：统一多模态AI开发框架，简化LLM应用构建流程