Zing 论坛

正文

Nova:面向生产环境的多模态视频Agentic工作流平台

Nova是一个基于LangGraph的多模态视频搜索与创作平台,融合Agentic Search与对话式视频编辑,支持从长视频到可检索片段的智能转换,采用状态持久化、复合路由和最小状态补丁等创新设计。

LangGraph多模态视频编辑Agentic WorkflowASROCR向量检索状态管理工作流编排
发布时间 2026/05/10 13:15最近活动 2026/05/10 13:19预计阅读 2 分钟
Nova:面向生产环境的多模态视频Agentic工作流平台
1

章节 01

Nova平台导读:面向生产环境的多模态视频Agentic工作流解决方案

Nova是基于LangGraph的多模态视频搜索与创作平台,融合Agentic Search与对话式视频编辑,核心使命是将长视频、直播回放等非结构化媒体内容转化为可检索、可解释、可编辑、可导出的结构化智能资产,实现内容生产从人工浏览手动剪辑到AI Agent驱动的范式迁移。平台支持上传视频触发ASR、OCR、Embedding等处理构建可检索片段,通过自然语言对话生成/修改剪辑计划,采用状态持久化、复合路由、最小状态补丁等创新设计。

2

章节 02

背景:Nova的项目定位与核心使命

Nova AI-Cut Agent Platform旨在解决传统视频处理低效问题,将非结构化媒体内容转化为结构化智能资产。面向生产环境设计,支持上传视频触发媒体处理工作流,从ASR、OCR、Caption等构建可检索片段,最终通过自然语言对话生成或修改视频剪辑计划。

3

章节 03

方法:双核架构与LangGraph协调器设计

Nova融合两大技术方向:1.基于LangGraph的多模态Agentic Search(负责意图路由、混合检索等);2.对话驱动的视频编辑模型(最小状态补丁增量更新,避免全量重建)。顶层协调器为LangGraph Coordinator Graph,包含五大模块:意图路由层(复合路由机制)、感知与检索子图(拒绝开放式LLM反射)、编辑规划子图(最小变更原则)、媒体工作流控制、导出/渲染控制。

4

章节 04

证据:媒体处理DAG与状态持久化设计

重型媒体处理采用依赖感知DAG设计(如ASR依赖音频提取,SegmentBuilder依赖ASR/OCR等),确保任务顺序与并行最优。状态持久化层包含AgentState、GlobalEditingState等核心实体,遵循domain.models只定义DTO原则。复合路由实战示例包括检索+编辑、纯导出、完整工作流等场景,展示流程执行逻辑。

5

章节 05

结论:核心设计原则与项目价值

核心设计原则:Agent编排优先、状态驱动、拒绝开放式反射、最小变更、服务边界清晰、依赖感知DAG。项目价值实现视频处理从人工到智能、批处理到交互式、黑盒到可解释、一次性到资产化的范式转变,为内容创作者和媒体公司提供AI原生工作流迁移路径。

6

章节 06

生产基础设施:开源组件支撑

Nova采用成熟开源组件构建生产级基础设施:Celery/Redis(异步任务)、MinIO(对象存储)、OpenSearch(全文检索)、Qdrant/Milvus(向量检索)、ModelGateway(LLM API抽象层),确保系统稳定性与可扩展性。