章节 01
ParaVT框架导读:解决工具先验悖论的多智能体并行视频工具调用方案
ParaVT是首个端到端RL训练的多智能体并行视频工具调用框架,核心创新在于单轮对话中同时调用多个时间窗口裁剪工具,解决串行调用的错误传播、上下文污染及推理成本问题。该框架提出PARA-GRPO算法应对工具先验悖论,并在6个长视频理解基准上实现平均7.9%的性能提升。
正文
ParaVT是首个端到端RL训练的多智能体并行视频工具调用框架,通过单次调用多个时间窗口裁剪解决串行调用的错误传播和上下文污染问题,提出PARA-GRPO算法解决工具先验悖论,在6个长视频理解基准上平均提升7.9%。
章节 01
ParaVT是首个端到端RL训练的多智能体并行视频工具调用框架,核心创新在于单轮对话中同时调用多个时间窗口裁剪工具,解决串行调用的错误传播、上下文污染及推理成本问题。该框架提出PARA-GRPO算法应对工具先验悖论,并在6个长视频理解基准上实现平均7.9%的性能提升。
章节 02
大型多模态模型(LMM)处理长视频时面临上下文窗口容量限制,需通过工具调用扩展感知能力。现有基于RL的工具调用方法多采用串行模式,存在单个错误裁剪无纠正传播、多轮调用污染上下文、推理成本随轮数线性增长等缺陷。
章节 03
ParaVT采用多智能体架构,主模型生成多裁剪指令,子智能体并行处理对应片段特征并聚合结果,将多轮任务压缩为单轮以降低延迟。框架采用端到端RL训练,模型通过与环境交互自主学习最优裁剪策略,而非依赖人工标注模仿。
章节 04
将标准RL应用于ParaVT时发现工具先验悖论:LMM预训练形成的工具先验导致格式崩溃(输出无法解析)和跳过工具捷径(直接猜测答案)。跨模型验证显示,弱先验模型格式稳定但无法激发工具调用,证实先验既是必要条件也是训练威胁。
章节 05
PARA-GRPO在标准GRPO基础上增加两个机制:1. 针对性格式奖励:仅在易崩溃的结构化token位置施加奖励,稳定格式且保留探索空间;2. 帧预算随机化:随机变化帧预算,迫使模型调用工具而非依赖捷径。
章节 06
ParaVT在6个长视频理解基准(含动作识别、时序定位、视频问答)上平均提升7.9%;PARA-GRPO将格式合规率从0.13提升至0.64;并行调用压缩多轮交互为单轮,推理延迟随轮数比例降低。
章节 07
ParaVT启示RL训练需与预训练先验协作而非对抗。局限包括仅支持视频裁剪工具、系统复杂度高;未来方向为扩展复杂工具链、探索其他领域的工具先验悖论、开发通用先验感知RL算法。