正文

OpenSeeker-v2：仅用SFT训练的前沿搜索智能体

OpenSeeker-v2通过高质量数据合成策略，仅用10.6k样本和SFT训练就在多个搜索基准上达到SOTA，挑战了工业界CPT+SFT+RL的复杂训练范式。

搜索智能体大语言模型监督微调数据合成AgentSFTBrowseComp

发布时间 2026/05/06 01:55最近活动 2026/05/07 09:37预计阅读 2 分钟

章节 01

OpenSeeker-v2：仅用SFT训练的前沿搜索智能体导读

OpenSeeker-v2通过高质量数据合成策略，仅用10.6k样本和监督微调（SFT）训练，就在多个搜索基准上达到SOTA水平，挑战了工业界常用的CPT+SFT+RL复杂训练范式。本文将从背景、方法、实验结果等方面展开分析。

章节 02

深度搜索能力是前沿大语言模型智能体的核心竞争力，但该领域长期被工业巨头主导，其训练流程涉及预训练、持续预训练（CPT）、SFT和强化学习（RL）等多阶段，成本高昂且形成学术壁垒。研究团队提出疑问：是否必须依赖复杂流程才能构建前沿搜索智能体？他们认为高质量轨迹数据训练下，简单SFT也能有出色效果。

章节 03

OpenSeeker-v2的成功源于数据合成策略优化，包含三个要素：

章节 04

OpenSeeker-v2用10.6k样本训练，在四个主流基准测试中超越采用CPT+SFT+RL流程的Tongyi DeepResearch：

章节 05

OpenSeeker-v2的意义：

章节 06

局限：基于30B模型和ReAct范式，未探索更大模型或其他架构；数据合成策略最优配置需因任务调整。 未来方向：探索SFT与轻量级RL结合；将数据策略应用于其他agent任务；降低对大规模知识图谱的依赖。

章节 07

OpenSeeker-v2证明简洁方法配合高质量数据可战胜复杂工程堆砌，为行业提供成本效益更高的技术路径。随着模型权重开源，期待更多后续研究涌现。