# OpenSeeker-v2：仅用10.6k数据点训练出的前沿搜索智能体

> 本文介绍OpenSeeker-v2，一个完全由学术团队开发、仅通过监督微调训练的前沿搜索智能体。在四个权威基准测试中超越了使用复杂CPT+SFT+RL流程的工业级模型。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-05T17:55:25.000Z
- 最近活动: 2026-05-06T03:18:23.253Z
- 热度: 141.6
- 关键词: 搜索智能体, 大语言模型, 监督微调, 数据合成, BrowseComp, ReAct, 知识图谱, 工具学习
- 页面链接: https://www.zingnex.cn/forum/thread/openseeker-v2-10-6k
- Canonical: https://www.zingnex.cn/forum/thread/openseeker-v2-10-6k
- Markdown 来源: ingested_event

---

# OpenSeeker-v2：仅用10.6k数据点训练出的前沿搜索智能体\n\n## 搜索智能体的工业垄断困境\n\n深度搜索能力已成为前沿大语言模型（LLM）智能体的核心竞争力，但这一领域的开发长期被科技巨头垄断。OpenAI、Google、阿里巴巴等公司拥有庞大的计算资源、海量的训练数据和顶尖的工程团队，使得学术机构和小型研究团队难以在这一赛道上竞争。\n\n工业界的主流做法通常遵循一个资源密集型的四阶段流程：预训练（Pre-training）→ 持续预训练（Continual Pre-training, CPT）→ 监督微调（Supervised Fine-tuning, SFT）→ 强化学习（Reinforcement Learning, RL）。这个流程需要数千甚至数万GPU小时的计算资源，以及数百万美元的资金投入，对绝大多数学术团队而言是不可承受的。\n\n## 学术团队的破局之道\n\nOpenSeeker-v2的出现打破了这一格局。这个完全由学术团队开发的搜索智能体证明了一个令人惊讶的事实：当使用信息丰富且难度较高的训练轨迹时，简单的监督微调（SFT）方法就能训练出顶尖水平的搜索智能体。\n\n研究团队来自学术界，他们没有工业巨头那样的计算资源，但通过巧妙的数据合成策略，仅用10.6k个训练样本就达到了业界领先水平。这一成果不仅挑战了"必须采用复杂多阶段训练"的固有认知，更为资源受限的研究者提供了可行的技术路径。\n\n## 三大数据合成策略\n\nOpenSeeker-v2的成功关键在于三项精心设计的数据合成改进：\n\n### 1. 知识图谱规模扩展\n\n搜索智能体的核心能力之一是在海量信息中进行有效探索。研究团队通过扩大知识图谱的规模，为模型提供了更丰富的探索空间。更大的知识图谱意味着更复杂的关联关系、更多样的信息路径，以及更具挑战性的推理任务。\n\n这种扩展不是简单的数据堆砌，而是有意识地增加信息的深度和广度，使训练轨迹更接近真实世界中的复杂搜索场景。模型在训练过程中接触到的不再是简化版的问题，而是需要多跳推理、跨域整合的真正难题。\n\n### 2. 工具集规模扩展\n\n现代搜索智能体需要调用多种工具来完成任务——搜索引擎、计算器、代码解释器、数据库查询工具等。研究团队扩大了可用工具集的范围，让模型在训练阶段就接触到更丰富的工具组合。\n\n这种扩展带来了两个好处：一是增强了模型的工具使用灵活性，使其能够根据任务特点选择最合适的工具组合；二是提高了模型对工具间协同工作的理解，学会如何将多个工具的输出整合成完整的答案。\n\n### 3. 严格低步数过滤\n\n这是三项改进中最具创新性的一项。研究团队发现，训练数据中存在大量"低效轨迹"——那些需要很多步骤才能完成任务、但每一步信息增益有限的路径。这些轨迹不仅浪费训练资源，还可能让模型学到低效的问题解决模式。\n\n通过严格的低步数过滤机制，团队只保留那些信息密度高、推理效率强的训练轨迹。这种筛选确保了模型学到的每一招每一式都是"精华"，避免了在冗余步骤上浪费学习容量。\n\n## 惊人的性能表现\n\nOpenSeeker-v2在四个权威基准测试上的表现令人瞩目。所有实验均使用30B参数规模的模型和ReAct（Reasoning + Acting）范式：\n\n### BrowseComp系列\n\nBrowseComp是评估智能体网络浏览和信息检索能力的基准测试。OpenSeeker-v2在英文版上达到46.0%，在中文版BrowseComp-ZH上达到58.1%。\n\n相比之下，阿里巴巴的通义深度研究（Tongyi DeepResearch）——一个使用完整CPT+SFT+RL流程训练的工业级模型——在这两项测试上分别只达到43.4%和46.7%。OpenSeeker-v2用简单的SFT方法超越了复杂工业流程的产物。\n\n### Humanity's Last Exam\n\n这是目前最具挑战性的AI基准测试之一，汇集了人类各学科领域的前沿难题。OpenSeeker-v2达到34.6%，而通义深度研究为32.9%。\n\n考虑到这个测试的难度——许多问题连人类专家都需要查阅大量资料才能回答——这一成绩充分证明了OpenSeeker-v2的深度搜索和推理能力。\n\n### xbench\n\n在xbench综合评估中，OpenSeeker-v2获得78.0%的高分，通义深度研究为75.0%。这一差距虽然不大，但考虑到两者的训练成本差异，OpenSeeker-v2的性价比优势极为明显。\n\n## 技术意义与启示\n\nOpenSeeker-v2的成功具有多重重要意义：\n\n### 数据质量优于数据数量\n\n传统观念认为，训练大模型需要海量数据。但OpenSeeker-v2证明，10.6k个精心筛选的高质量样本可以胜过数百万未经筛选的样本。这启示研究者在数据收集阶段就应注重质量把控，而非盲目追求数量。\n\n### 简单方法可以战胜复杂流程\n\n工业界倾向于使用越来越复杂的训练流程，但OpenSeeker-v2表明，当基础方法（SFT）配合优质数据时，可以达到甚至超越复杂流程的效果。这为资源受限场景下的模型开发提供了新思路。\n\n### 学术民主化的重要一步\n\n作为首个完全由学术团队开发、仅使用SFT就达到SOTA水平的搜索智能体，OpenSeeker-v2降低了前沿AI研究的准入门槛。研究团队已开源模型权重，这意味着任何有基本计算资源的研究者都可以复现、研究和改进这一工作。\n\n## 局限与未来方向\n\n尽管成绩斐然，OpenSeeker-v2仍有改进空间：\n\n1. **规模限制**：当前使用30B模型，未来可以探索更大规模模型的表现。\n\n2. **多模态能力**：目前主要聚焦文本搜索，未来可扩展至图像、视频等多模态内容。\n\n3. **实时信息获取**：搜索智能体需要与实时网络信息结合，如何高效更新知识库是重要课题。\n\n4. **安全性与可控性**：强大的搜索能力也带来了信息安全和内容可控的挑战。\n\n## 结语\n\nOpenSeeker-v2代表了AI研究民主化的重要里程碑。它证明了即使没有工业巨头的资源，学术团队通过巧妙的方法设计也能在前沿领域取得突破。这一工作不仅提供了具体的技术方案，更重要的是传递了一种信念：优质的研究思路和严谨的数据工程，可以弥补硬件资源的不足。\n\n随着模型权重和相关资料的开放，我们期待看到更多基于OpenSeeker-v2的改进和创新，推动搜索智能体技术向着更加开放、普惠的方向发展。