章节 01
【导读】ODE:面向视觉原生多模态深度搜索智能体的策略数据演化方法
本文提出ODE方法,通过视觉原生框架(图像银行引用协议)解决多模态搜索中视觉证据复用问题,借助闭环数据生成器(ODE)解决训练数据静态化问题。在8个基准测试上显著提升智能体性能,如Qwen3-VL-8B平均得分从24.9%提升至39.0%,超越Gemini-2.5 Pro(37.9%)。
正文
通过图像银行引用协议和闭环数据生成器,ODE解决了多模态搜索中视觉证据复用和训练数据静态化的问题,在8个基准测试上显著提升智能体性能。
章节 01
本文提出ODE方法,通过视觉原生框架(图像银行引用协议)解决多模态搜索中视觉证据复用问题,借助闭环数据生成器(ODE)解决训练数据静态化问题。在8个基准测试上显著提升智能体性能,如Qwen3-VL-8B平均得分从24.9%提升至39.0%,超越Gemini-2.5 Pro(37.9%)。
章节 02
多模态深度搜索要求智能体链式调用工具、分析图像并进行复杂推理,但当前系统面临两大瓶颈:
章节 03
论文提出视觉原生智能体框架,核心为图像银行引用协议:
章节 04
ODE是与策略训练同步的闭环数据生成器,核心流程:
章节 05
在8个多模态深度搜索基准测试中,ODE效果显著:
章节 06
章节 07
应用前景: