# OpenSeeker-v2：仅用SFT训练的前沿搜索智能体

> OpenSeeker-v2通过高质量数据合成策略，仅用10.6k样本和SFT训练就在多个搜索基准上达到SOTA，挑战了工业界CPT+SFT+RL的复杂训练范式。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-05T17:55:25.000Z
- 最近活动: 2026-05-07T01:37:55.682Z
- 热度: 117.3
- 关键词: 搜索智能体, 大语言模型, 监督微调, 数据合成, Agent, SFT, BrowseComp
- 页面链接: https://www.zingnex.cn/forum/thread/openseeker-v2-sft
- Canonical: https://www.zingnex.cn/forum/thread/openseeker-v2-sft
- Markdown 来源: ingested_event

---

# OpenSeeker-v2：仅用SFT训练的前沿搜索智能体

## 背景与挑战

深度搜索能力已成为前沿大语言模型智能体不可或缺的核心竞争力。然而，这一领域的开发长期被工业巨头所主导，其典型训练流程涉及预训练、持续预训练（CPT）、监督微调（SFT）和强化学习（RL）等多个高资源消耗阶段。这种复杂的pipeline不仅成本高昂，也对学术界的跟进研究形成了技术壁垒。

OpenSeeker-v2的研究团队来自学术界，他们提出了一个根本性的问题：**是否必须依赖复杂的训练流程才能构建前沿搜索智能体？** 他们的研究表明，当使用信息丰富且难度较高的轨迹数据进行训练时，简单的SFT方法也能取得惊人的效果。

## 核心方法：数据合成三要素

OpenSeeker-v2的成功并非来自模型架构的创新，而是源于对数据合成策略的深入优化。研究团队提出了三个关键的数据合成改进：

### 1. 扩展知识图谱规模

传统的搜索智能体训练往往受限于知识图谱的覆盖范围。OpenSeeker-v2通过**扩大知识图谱的规模**，为智能体提供了更丰富的探索空间。这使得模型能够在训练阶段接触到更多样化的信息检索场景，从而在实际应用中展现出更强的泛化能力。

### 2. 扩展工具集规模

搜索智能体的能力边界很大程度上取决于其可调用的工具集合。研究团队通过**增加工具集的大小**，赋予智能体更广泛的功能性。这不仅包括传统的网页搜索工具，还涵盖了各种专业领域的检索接口，使智能体能够应对更复杂的查询需求。

### 3. 严格低步数过滤

这是OpenSeeker-v2数据策略中最具创新性的部分。研究团队发现，**长轨迹并不总是意味着高质量**。通过实施严格的低步数过滤机制，他们筛选出那些能够在较少步骤内完成复杂任务的轨迹。这种过滤策略确保了训练数据的高效性——每一轮交互都包含高密度的信息价值。

## 实验结果：挑战工业界SOTA

OpenSeeker-v2的训练数据量仅为**10.6k样本**，却在四个主流基准测试中取得了业界领先的成绩：

| 基准测试 | OpenSeeker-v2 | Tongyi DeepResearch (CPT+SFT+RL) |
|---------|--------------|----------------------------------|
| BrowseComp | **46.0%** | 43.4% |
| BrowseComp-ZH | **58.1%** | 46.7% |
| Humanity's Last Exam | **34.6%** | 32.9% |
| xbench | **78.0%** | 75.0% |

值得注意的是，Tongyi DeepResearch采用了完整的CPT+SFT+RL训练流程，而OpenSeeker-v2仅使用了简单的SFT。这一结果有力地证明了**数据质量优于训练复杂度**的核心理念。

## 技术意义与启示

OpenSeeker-v2的研究具有多重重要意义：

**首先，它打破了工业界的技术垄断。** 作为首个完全由学术团队开发的、在同等模型规模和范式下达到SOTA的搜索智能体，OpenSeeker-v2证明了学术界在前沿AI研究中仍然可以发挥重要作用。

**其次，它重新审视了训练流程的设计哲学。** 当前业界普遍追求更复杂的训练pipeline，而OpenSeeker-v2表明，通过精心设计的数据策略，简单的训练方法也能达到甚至超越复杂方法的效果。这为资源受限的研究团队提供了新的思路。

**最后，它强调了数据工程的重要性。** 在模型架构日趋成熟的今天，数据质量往往成为决定模型性能的关键因素。OpenSeeker-v2的三项数据合成策略为未来的搜索智能体研究提供了可复用的方法论。

## 局限与未来方向

尽管OpenSeeker-v2取得了显著成果，研究团队也坦诚指出了一些局限性。当前的工作主要基于30B规模的模型和ReAct范式，尚未探索更大规模模型或其他agent架构的潜力。此外，数据合成策略虽然有效，但其最优配置可能因任务类型而异，需要进一步的研究来建立更通用的指导原则。

未来研究可以沿着以下方向展开：探索SFT与轻量级RL的结合、将数据合成策略应用于其他agent任务、以及研究如何进一步降低对大规模知识图谱的依赖。

## 结语

OpenSeeker-v2的研究为搜索智能体领域带来了新的视角。它证明，在AI研究中，**简洁的方法配合高质量的数据**往往能够战胜复杂的工程堆砌。这一发现不仅具有学术价值，也为整个行业提供了成本效益更高的技术路径选择。随着模型权重的开源发布，我们期待看到更多基于这一思路的后续研究涌现。