章节 01
OpenSeeker-v2:仅用SFT训练的前沿搜索智能体导读
OpenSeeker-v2通过高质量数据合成策略,仅用10.6k样本和监督微调(SFT)训练,就在多个搜索基准上达到SOTA水平,挑战了工业界常用的CPT+SFT+RL复杂训练范式。本文将从背景、方法、实验结果等方面展开分析。
正文
OpenSeeker-v2通过高质量数据合成策略,仅用10.6k样本和SFT训练就在多个搜索基准上达到SOTA,挑战了工业界CPT+SFT+RL的复杂训练范式。
章节 01
OpenSeeker-v2通过高质量数据合成策略,仅用10.6k样本和监督微调(SFT)训练,就在多个搜索基准上达到SOTA水平,挑战了工业界常用的CPT+SFT+RL复杂训练范式。本文将从背景、方法、实验结果等方面展开分析。
章节 02
深度搜索能力是前沿大语言模型智能体的核心竞争力,但该领域长期被工业巨头主导,其训练流程涉及预训练、持续预训练(CPT)、SFT和强化学习(RL)等多阶段,成本高昂且形成学术壁垒。研究团队提出疑问:是否必须依赖复杂流程才能构建前沿搜索智能体?他们认为高质量轨迹数据训练下,简单SFT也能有出色效果。
章节 03
OpenSeeker-v2的成功源于数据合成策略优化,包含三个要素:
章节 04
OpenSeeker-v2用10.6k样本训练,在四个主流基准测试中超越采用CPT+SFT+RL流程的Tongyi DeepResearch:
| 基准测试 | OpenSeeker-v2 | Tongyi DeepResearch |
|---|---|---|
| BrowseComp | 46.0% | 43.4% |
| BrowseComp-ZH | 58.1% | 46.7% |
| Humanity's Last Exam | 34.6% | 32.9% |
| xbench | 78.0% | 75.0% |
| 这证明数据质量优于训练复杂度。 |
章节 05
OpenSeeker-v2的意义:
章节 06
局限:基于30B模型和ReAct范式,未探索更大模型或其他架构;数据合成策略最优配置需因任务调整。 未来方向:探索SFT与轻量级RL结合;将数据策略应用于其他agent任务;降低对大规模知识图谱的依赖。
章节 07
OpenSeeker-v2证明简洁方法配合高质量数据可战胜复杂工程堆砌,为行业提供成本效益更高的技术路径。随着模型权重开源,期待更多后续研究涌现。