Zing 论坛

正文

ODE:面向视觉原生多模态深度搜索智能体的策略数据演化方法

通过图像银行引用协议和闭环数据生成器,ODE解决了多模态搜索中视觉证据复用和训练数据静态化的问题,在8个基准测试上显著提升智能体性能。

多模态搜索智能体训练数据演化视觉推理工具使用Qwen3-VL强化学习监督微调
发布时间 2026/05/12 00:49最近活动 2026/05/12 14:25预计阅读 2 分钟
ODE:面向视觉原生多模态深度搜索智能体的策略数据演化方法
1

章节 01

【导读】ODE:面向视觉原生多模态深度搜索智能体的策略数据演化方法

本文提出ODE方法,通过视觉原生框架(图像银行引用协议)解决多模态搜索中视觉证据复用问题,借助闭环数据生成器(ODE)解决训练数据静态化问题。在8个基准测试上显著提升智能体性能,如Qwen3-VL-8B平均得分从24.9%提升至39.0%,超越Gemini-2.5 Pro(37.9%)。

2

章节 02

背景:多模态深度搜索的核心挑战

多模态深度搜索要求智能体链式调用工具、分析图像并进行复杂推理,但当前系统面临两大瓶颈:

  1. 视觉证据临时性:现有工具框架将图像视为一次性输出,中间视觉证据无法被后续工具复用;
  2. 训练数据静态化:固定流程构建的数据无法适应策略能力的动态演变,导致资源浪费。
3

章节 03

方法1:视觉原生智能体框架(图像银行机制)

论文提出视觉原生智能体框架,核心为图像银行引用协议

  • 将工具返回的图像注册为可寻址引用,存储于“图像银行”;
  • 后续工具可通过引用ID访问历史图像,实现视觉证据在推理链中的复用;
  • 解决多步视觉推理问题(如地图标注→分析),避免重复生成/传输图像,提升效率与信息完整性。
4

章节 04

方法2:策略数据演化(ODE)的闭环机制

ODE是与策略训练同步的闭环数据生成器,核心流程:

  1. 当前策略rollout生成执行轨迹;
  2. 分析轨迹识别成败模式;
  3. 生成针对性训练数据强化薄弱环节;
  4. 用新数据训练策略并重复。 支持监督微调(SFT)与强化学习(RL)数据策划,覆盖智能体完整训练生命周期。
5

章节 05

实验证据:性能显著提升的验证

在8个多模态深度搜索基准测试中,ODE效果显著:

  • Qwen3-VL-8B:平均得分从24.9%提升至39.0%(+56%),超越Gemini-2.5 Pro(37.9%);
  • Qwen3-VL-30B:平均得分从30.6%提升至41.5%。 证明动态数据生成可弥补模型规模差距。
6

章节 06

关键发现:图像银行与动态数据的价值

  1. 图像银行复用:在迭代视觉优化任务中,避免重复开销并保持信息完整;
  2. Rollout反馈优势:基于策略实际表现生成数据,比静态合成更匹配任务需求;
  3. 动态适应:静态数据无法随策略进步调整难度,ODE逐轮精炼避免资源浪费。
7

章节 07

应用前景与未来方向

应用前景

  • 推广至通用智能体训练、视觉-语言模型(VLM)优化;
  • 降低多模态数据标注成本;
  • 支持持续学习(部署后迭代优化)。 局限与方向
  • 优化计算开销;
  • 验证开放世界泛化能力;
  • 提升可解释性;
  • 适配多智能体协作场景。