# Nova：面向生产环境的多模态视频Agentic工作流平台

> Nova是一个基于LangGraph的多模态视频搜索与创作平台，融合Agentic Search与对话式视频编辑，支持从长视频到可检索片段的智能转换，采用状态持久化、复合路由和最小状态补丁等创新设计。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-10T05:15:56.000Z
- 最近活动: 2026-05-10T05:19:21.652Z
- 热度: 143.9
- 关键词: LangGraph, 多模态, 视频编辑, Agentic Workflow, ASR, OCR, 向量检索, 状态管理, 工作流编排
- 页面链接: https://www.zingnex.cn/forum/thread/nova-agentic
- Canonical: https://www.zingnex.cn/forum/thread/nova-agentic
- Markdown 来源: ingested_event

---

# Nova：面向生产环境的多模态视频Agentic工作流平台\n\n## 项目定位：媒体智能资产化\n\nNova AI-Cut Agent Platform 的核心使命是将长视频、直播回放、游戏集锦等非结构化媒体内容，转换为可检索、可解释、可编辑、可导出的结构化媒体智能资产。这一转变不仅是技术层面的革新，更是内容生产工作流的范式迁移——从人工浏览、手动剪辑的传统模式，转向由AI Agent驱动的智能化、自动化处理。\n\n该平台面向生产环境设计，支持上传视频并触发媒体处理工作流，从ASR、OCR、Caption、Embedding、Metadata中构建可检索片段，最终通过自然语言对话生成或修改视频剪辑计划。\n\n## 双核架构：Agentic Search × 对话式视频编辑\n\nNova的独特之处在于融合了两大技术方向：\n\n### 方向一：基于LangGraph的多模态Agentic Search\n\n这一层负责意图路由、查询改写、混合检索、重排、证据校验和最终回答。系统能够理解用户的自然语言查询，将其转化为结构化的检索任务，并通过BM25词法搜索与密集向量检索的混合方式，从海量视频片段中精准定位目标内容。\n\n### 方向二：对话驱动的视频编辑模型\n\n与传统视频编辑工具不同，Nova采用"状态补丁"而非"全量重建"的设计理念。用户每轮对话不会触发完整的视频计划重建，而是生成最小的EditingStatePatch，并持久化到GlobalEditingState。这种增量式更新大幅提升了交互效率，避免了重复计算。\n\n## 系统架构深度解析\n\n### LangGraph Coordinator Graph核心结构\n\nNova的顶层协调器采用LangGraph Coordinator Graph，将领域能力组织为subgraphs、nodes、tools和确定性服务。整体架构分为五大模块：\n\n#### 1. 意图路由层（5个节点）\n\n- **StateLoadNode**：加载当前会话状态\n- **IntentClassificationNode**：识别用户意图类型\n- **RouteDecisionNode**：决策路由目标\n- **RouteSequenceControllerNode**：展开复合路由序列\n- **FinalResponseNode**：组装最终响应\n\n复合路由机制是Nova的重要创新。系统支持多种路由目标，包括retrieval_only、editing_only、retrieval_then_editing、media_processing_then_editing、editing_then_export等。RouteSequenceControllerNode负责将复合意图展开为有序的路由序列，并推进执行。\n\n#### 2. 感知与检索子图（8个节点）\n\n- **MediaReadinessNode**：检查媒体就绪状态\n- **QueryRewriteNode**：查询改写优化\n- **HybridRetrievalNode**：混合检索（BM25 + 向量）\n- **CandidateEvidenceAttachNode**：候选证据附加\n- **RerankNode**：重排序优化\n- **FinalEvidenceGroundingNode**：最终证据锚定\n- **SearchQualityCheckNode**：搜索质量量化评估\n- **ConditionalRetryOrFinalize**：条件重试或返回最佳结果\n\n检索子图的关键设计原则是"拒绝开放式LLM反射循环"。搜索质量必须通过显式指标和重试预算评估，而非依赖LLM的自我反思。SearchQualityCheckNode执行量化质量评估，ConditionalRetryOrFinalize执行有界重试或返回best-effort结果。\n\n#### 3. 编辑规划子图（11个业务节点 + 2个编排节点）\n\n- **IntentToEditTaskNode**：意图转编辑任务\n- **EditingStateReadNode**：读取编辑状态\n- **SegmentSelectionNode**：片段选择\n- **PlanDiffNode**：计划差异计算（生成最小补丁）\n- **PatchValidationNode**：补丁验证\n- **PlanningArtifactFork**：规划制品分叉（并行字幕、剪辑计划、标题标签）\n- **SubtitleDraftNode**：字幕草稿生成\n- **ClipPlanNode**：剪辑计划生成\n- **TitleTagNode**：标题标签生成\n- **PlanningArtifactJoinNode**：规划制品合并\n- **ArtifactRefreshPlannerNode**：制品刷新规划\n- **EditingPlanValidationNode**：编辑计划验证\n- **EditingStateUpdateNode**：编辑状态原子更新\n\n编辑规划的核心原则是"拒绝全量重建"。PlanDiffNode将用户指令转换为最小EditingStatePatch，PatchValidationNode验证补丁合法性，PlanningArtifactFork显式分叉可并行规划任务，最终通过版本检查原子提交更新。\n\n#### 4. 媒体工作流控制节点（3个节点）\n\n- **MediaWorkflowTriggerNode**：触发媒体处理\n- **MediaWorkflowStatusNode**：查询处理状态\n- **MediaWorkflowResultReadNode**：读取处理结果\n\n#### 5. 导出/渲染控制节点（4个节点）\n\n- **RenderReadinessNode**：检查渲染就绪\n- **RenderWorkflowTriggerNode**：触发渲染任务\n- **RenderWorkflowStatusNode**：查询渲染状态\n- **RenderWorkflowResultReadNode**：读取渲染结果\n\n### 外部确定性服务边界\n\nNova严格区分Agent编排层与确定性服务层。LangGraph只负责触发渲染任务、查询渲染状态、总结渲染结果并写回状态，但绝不在graph node内直接执行FFmpeg。\n\n**Editing Execution Service**（编辑执行服务）包含：\n- ClipSegmentDeriver：片段派生\n- FFmpegCommandBuilder：FFmpeg命令构建\n- RenderJobRunner：渲染作业运行\n- OutputVerifier：输出验证\n- ExportMetadataWriter：导出元数据写入\n\n这种边界设计确保了Agent层的轻量化和确定性服务的可扩展性。\n\n## 媒体处理工作流DAG\n\n重型媒体处理被建模为依赖感知的工作流DAG，而非平铺任务列表：\n\n```\nMedia Processing Workflow DAG\n├── MetadataExtractionTask\n├── AudioExtractionTask → ASRTask\n├── FrameExtractionTask → OCRTask / CaptionTask\n├── SceneShotDetectionTask\n├── SegmentBuilderTask\n├── TextEmbeddingTask\n├── VisualEmbeddingTask\n├── IndexingTask\n└── SearchableStatusTask\n```\n\n关键依赖关系：\n- ASRTask依赖AudioExtractionTask\n- OCRTask和CaptionTask依赖FrameExtractionTask\n- SegmentBuilderTask依赖ASR/OCR/Caption/SceneShot的可用性\n- TextEmbeddingTask依赖segment text\n- VisualEmbeddingTask依赖代表帧\n- IndexingTask依赖segment、embeddings和metadata\n\n这种DAG设计确保了任务执行的顺序性和并行性的最优平衡。\n\n## 状态持久化层设计\n\nNova的状态持久化层包含多个核心实体：\n\n- **AgentState**：LangGraph runtime state的唯一来源\n- **GlobalEditingState**：全局编辑状态，支持增量更新\n- **WorkflowArtifactStatus**：工作流制品状态\n- **MediaWorkflowRun**：媒体工作流运行记录\n- **RenderJob**：渲染作业\n- **ClipSegments**：剪辑片段\n- **EditedVideoArtifact**：编辑后的视频制品\n- **GraphRun**：图运行记录\n- **NodeTrace**：节点执行轨迹\n\n关键设计原则：domain.models只定义DTO（如Video、MediaSegment、SegmentEvidence等），不重复定义runtime AgentState。\n\n## 复合路由机制实战示例\n\n### 示例一：检索+编辑复合意图\n\n用户输入：\"帮我找热血片段，并剪成30秒短视频\"\n\n执行流程：\n```\nStateLoadNode\n→ IntentClassificationNode\n→ RouteDecisionNode\n→ RouteSequenceControllerNode ([retrieval, editing])\n→ Perception & Retrieval Subgraph\n→ Editing Planning Subgraph\n→ FinalResponseNode\n```\n\n### 示例二：纯导出意图\n\n用户输入：\"把当前剪辑导出成短视频\"\n\n执行流程：\n```\nStateLoadNode\n→ IntentClassificationNode\n→ RouteDecisionNode (export_only)\n→ RouteSequenceControllerNode ([export_render_control])\n→ RenderReadinessNode\n→ RenderWorkflowTriggerNode\n→ RenderWorkflowStatusNode / RenderWorkflowResultReadNode\n→ FinalResponseNode\n```\n\n重要约束：export_only必须路由到Export/Render Control Nodes，不得直接路由到Editing Execution Service。\n\n### 示例三：完整工作流\n\n用户输入：\"帮我找热血片段，剪成30秒，并直接导出\"\n\n执行流程：\n```\nPerception & Retrieval Subgraph\n→ Editing Planning Subgraph\n→ Export / Render Control Nodes\n→ FinalResponseNode\n```\n\n## 生产基础设施\n\nNova采用成熟的开源组件构建生产级基础设施：\n\n- **Celery / Redis**：重型媒体任务和渲染任务的异步执行\n- **MinIO**：对象存储，存放原始视频、中间制品和导出结果\n- **OpenSearch**：BM25/全文检索\n- **Qdrant / Milvus**：向量检索\n- **ModelGateway**：LLM API抽象层，支持OpenAI、DeepSeek及兼容服务\n\n## 核心设计原则总结\n\n1. **Agent编排优先**：Nova的核心研发重点是Agent编排，而非重写检索、媒体处理或渲染逻辑\n2. **状态驱动**：每个node读写AgentState，然后调用领域服务\n3. **拒绝开放式反射**：检索和编辑均通过显式指标和结构化流程控制，避免LLM的不可控自我反思\n4. **最小变更原则**：编辑操作生成最小状态补丁，而非全量重建\n5. **服务边界清晰**：LangGraph不直接执行FFmpeg或重型媒体处理，只负责编排和触发\n6. **依赖感知DAG**：媒体处理建模为依赖感知的工作流DAG，确保正确执行顺序\n\n## 项目价值与意义\n\nNova代表了视频内容处理领域的重要范式转变：\n\n- **从人工到智能**：将繁琐的视频浏览和剪辑工作交给AI Agent\n- **从批处理到交互式**：支持自然语言对话驱动的实时编辑\n- **从黑盒到可解释**：每个决策节点都可追踪、可验证\n- **从一次性到资产化**：视频内容成为可检索、可复用的智能资产\n\n对于内容创作者、媒体公司和视频平台而言，Nova提供了一条从传统工作流向AI原生工作流迁移的清晰路径。
