Zing 论坛

正文

OpenSeeker-v2:仅用SFT训练的前沿搜索智能体

OpenSeeker-v2通过高质量数据合成策略,仅用10.6k样本和SFT训练就在多个搜索基准上达到SOTA,挑战了工业界CPT+SFT+RL的复杂训练范式。

搜索智能体大语言模型监督微调数据合成AgentSFTBrowseComp
发布时间 2026/05/06 01:55最近活动 2026/05/07 09:37预计阅读 2 分钟
OpenSeeker-v2:仅用SFT训练的前沿搜索智能体
1

章节 01

OpenSeeker-v2:仅用SFT训练的前沿搜索智能体导读

OpenSeeker-v2通过高质量数据合成策略,仅用10.6k样本和监督微调(SFT)训练,就在多个搜索基准上达到SOTA水平,挑战了工业界常用的CPT+SFT+RL复杂训练范式。本文将从背景、方法、实验结果等方面展开分析。

2

章节 02

背景与挑战:打破工业界复杂训练范式的思考

深度搜索能力是前沿大语言模型智能体的核心竞争力,但该领域长期被工业巨头主导,其训练流程涉及预训练、持续预训练(CPT)、SFT和强化学习(RL)等多阶段,成本高昂且形成学术壁垒。研究团队提出疑问:是否必须依赖复杂流程才能构建前沿搜索智能体?他们认为高质量轨迹数据训练下,简单SFT也能有出色效果。

3

章节 03

核心方法:数据合成的三大关键改进

OpenSeeker-v2的成功源于数据合成策略优化,包含三个要素:

  1. 扩展知识图谱规模:扩大知识图谱覆盖,提供更丰富探索空间,提升泛化能力;
  2. 扩展工具集规模:增加可调用工具(含专业检索接口),应对复杂查询;
  3. 严格低步数过滤:筛选少步骤完成复杂任务的轨迹,确保训练数据高效性。
4

章节 04

实验结果:仅SFT训练挑战工业界SOTA

OpenSeeker-v2用10.6k样本训练,在四个主流基准测试中超越采用CPT+SFT+RL流程的Tongyi DeepResearch:

基准测试 OpenSeeker-v2 Tongyi DeepResearch
BrowseComp 46.0% 43.4%
BrowseComp-ZH 58.1% 46.7%
Humanity's Last Exam 34.6% 32.9%
xbench 78.0% 75.0%
这证明数据质量优于训练复杂度。
5

章节 05

技术意义:打破垄断,重新审视训练流程

OpenSeeker-v2的意义:

  1. 打破工业垄断:首个学术团队开发的同等规模下SOTA搜索智能体;
  2. 重新审视训练哲学:简单训练方法(SFT)配合优质数据可超越复杂流程,为资源受限团队提供思路;
  3. 强调数据工程重要性:数据质量是模型性能关键,三项数据策略提供可复用方法论。
6

章节 06

局限与未来方向:进一步探索的空间

局限:基于30B模型和ReAct范式,未探索更大模型或其他架构;数据合成策略最优配置需因任务调整。 未来方向:探索SFT与轻量级RL结合;将数据策略应用于其他agent任务;降低对大规模知识图谱的依赖。

7

章节 07

结语:简洁方法+高质量数据的胜利

OpenSeeker-v2证明简洁方法配合高质量数据可战胜复杂工程堆砌,为行业提供成本效益更高的技术路径。随着模型权重开源,期待更多后续研究涌现。