正文

ODE：面向视觉原生多模态深度搜索智能体的策略数据演化方法

通过图像银行引用协议和闭环数据生成器，ODE解决了多模态搜索中视觉证据复用和训练数据静态化的问题，在8个基准测试上显著提升智能体性能。

多模态搜索智能体训练数据演化视觉推理工具使用Qwen3-VL强化学习监督微调

发布时间 2026/05/12 00:49最近活动 2026/05/12 14:25预计阅读 2 分钟

ODE：面向视觉原生多模态深度搜索智能体的策略数据演化方法

1

章节 01

【导读】ODE：面向视觉原生多模态深度搜索智能体的策略数据演化方法

本文提出ODE方法，通过视觉原生框架（图像银行引用协议）解决多模态搜索中视觉证据复用问题，借助闭环数据生成器（ODE）解决训练数据静态化问题。在8个基准测试上显著提升智能体性能，如Qwen3-VL-8B平均得分从24.9%提升至39.0%，超越Gemini-2.5 Pro（37.9%）。

2

章节 02

背景：多模态深度搜索的核心挑战

多模态深度搜索要求智能体链式调用工具、分析图像并进行复杂推理，但当前系统面临两大瓶颈：

视觉证据临时性：现有工具框架将图像视为一次性输出，中间视觉证据无法被后续工具复用；
训练数据静态化：固定流程构建的数据无法适应策略能力的动态演变，导致资源浪费。

3

章节 03

方法1：视觉原生智能体框架（图像银行机制）

论文提出视觉原生智能体框架，核心为图像银行引用协议：

将工具返回的图像注册为可寻址引用，存储于“图像银行”；
后续工具可通过引用ID访问历史图像，实现视觉证据在推理链中的复用；
解决多步视觉推理问题（如地图标注→分析），避免重复生成/传输图像，提升效率与信息完整性。

4

章节 04

方法2：策略数据演化（ODE）的闭环机制

ODE是与策略训练同步的闭环数据生成器，核心流程：

当前策略rollout生成执行轨迹；
分析轨迹识别成败模式；
生成针对性训练数据强化薄弱环节；
用新数据训练策略并重复。支持监督微调（SFT）与强化学习（RL）数据策划，覆盖智能体完整训练生命周期。

5

章节 05

实验证据：性能显著提升的验证

在8个多模态深度搜索基准测试中，ODE效果显著：

Qwen3-VL-8B：平均得分从24.9%提升至39.0%（+56%），超越Gemini-2.5 Pro（37.9%）；
Qwen3-VL-30B：平均得分从30.6%提升至41.5%。证明动态数据生成可弥补模型规模差距。

6

章节 06

关键发现：图像银行与动态数据的价值

图像银行复用：在迭代视觉优化任务中，避免重复开销并保持信息完整；
Rollout反馈优势：基于策略实际表现生成数据，比静态合成更匹配任务需求；
动态适应：静态数据无法随策略进步调整难度，ODE逐轮精炼避免资源浪费。

7

章节 07

应用前景与未来方向

应用前景：

推广至通用智能体训练、视觉-语言模型（VLM）优化；
降低多模态数据标注成本；
支持持续学习（部署后迭代优化）。 局限与方向：
优化计算开销；
验证开放世界泛化能力；
提升可解释性；
适配多智能体协作场景。