# POINTS-Seeker：从零训练多模态智能体搜索模型

> 本文介绍了POINTS-Seeker-8B，通过Agentic Seeding阶段和V-Fold历史压缩技术，实现了长程知识密集型视觉推理的突破，在六个基准测试中达到最先进性能。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-15T16:09:37.000Z
- 最近活动: 2026-04-16T01:52:47.312Z
- 热度: 139.3
- 关键词: 多模态搜索, 智能体模型, POINTS-Seeker, 视觉压缩, 长程推理, 知识检索, Agentic Seeding
- 页面链接: https://www.zingnex.cn/forum/thread/points-seeker
- Canonical: https://www.zingnex.cn/forum/thread/points-seeker
- Markdown 来源: ingested_event

---

## 引言：超越静态知识的边界

大视觉语言模型（LMMs）在图像理解、视觉问答等任务上展现了惊人的能力。然而，它们本质上仍受限于训练时获得的静态参数知识。当面对需要最新信息、特定领域知识或复杂多步推理的问题时，这些模型往往会力不从心。

为了解决这一局限，研究者开始探索多模态搜索模型——能够主动与外部环境交互、检索证据、并基于检索结果进行推理的智能系统。现有的方法大多采用"改造"策略：在通用LMM之上添加搜索工具作为模块化扩展。虽然这种方法简单直接，但可能无法充分发挥智能体搜索的潜力。

POINTS-Seeker的研究团队选择了一条不同的道路：从零开始训练一个专门的多模态智能体搜索模型。这一大胆的尝试带来了几个关键创新，最终在多个基准测试中取得了最先进的性能。

## 现有范式的局限：工具添加 vs 原生设计

当前主流的多模态搜索方法遵循一个共同模式：取一个预训练好的通用LMM，然后为其配备搜索工具（如网络搜索、数据库查询等）。模型通过函数调用或API接口与这些工具交互。

这种模式存在几个潜在问题：

**能力错位**：通用LMM的训练目标通常是预测下一个token，而非最优地利用外部工具。模型可能不擅长决定何时搜索、搜索什么、以及如何整合检索结果。

**交互效率低下**：由于搜索行为不是训练的核心部分，模型可能需要多轮尝试才能获取所需信息，交互效率不高。

**长程推理困难**：随着交互历史的累积，模型需要处理越来越长的上下文，这会影响其定位关键信息的能力。

POINTS-Seeker的核心假设是：通过从头设计并训练一个以智能体搜索为核心目标的模型，可以克服这些局限。

## Agentic Seeding：编织智能体行为的基础

POINTS-Seeker的第一个关键创新是"Agentic Seeding"（智能体播种）阶段。这是一个专门设计的预训练阶段，旨在为模型奠定智能体行为的基础。

在这个阶段，模型被暴露于大量的合成环境中，学习如何：

**识别知识缺口**：判断何时需要外部信息来回答问题。

**制定搜索策略**：根据问题特点决定搜索什么、如何搜索。

**整合检索结果**：将外部信息与视觉理解、已有知识相结合。

**规划多步行动**：设计并执行需要多次交互的复杂查询计划。

Agentic Seeding不同于简单的工具使用训练。它不仅教模型如何调用API，更重要的是培养一种"智能体思维模式"——主动探索、验证假设、迭代改进的认知习惯。

## V-Fold：解决长程交互的瓶颈

研究团队在长程交互实验中发现了一个关键瓶颈：随着对话历史的增长，模型定位真实证据的能力会显著下降。这是因为注意力机制需要处理越来越多的token，关键信息被淹没在噪声中。

为了解决这个问题，他们提出了V-Fold（Visual Folding），一种自适应的历史感知压缩方案：

### 核心设计

V-Fold采用了一种分层处理策略：

**近期历史的高保真保留**：最近的对话轮次以完整文本形式保留，确保模型能够准确理解当前上下文。

**远期历史的视觉压缩**：较早的交互历史被"折叠"到视觉空间中——通过渲染技术将文本历史转化为图像表示。这样，模型可以通过视觉感知快速浏览历史概要，而不需要逐字处理。

**自适应切换**：系统根据当前任务需求和历史复杂度，动态决定保留多少文本历史、压缩多少视觉历史。

### 为什么视觉压缩有效

视觉压缩的优势在于信息密度。人类在阅读长文档时，往往会先浏览图表、标题、高亮部分来获取整体印象，而非逐字阅读。V-Fold借鉴了这一认知策略，让模型能够以更紧凑的形式把握历史脉络。

此外，视觉表示天然支持空间关系推理。模型可以通过观察渲染后的历史图像，快速识别信息结构、时间线、因果关系等。

## POINTS-Seeker-8B：架构与训练

POINTS-Seeker-8B是一个80亿参数的多模态模型，专门针对智能体搜索任务设计和训练。其架构包含几个关键组件：

### 视觉编码器

采用先进的视觉Transformer，能够处理高分辨率图像，提取细粒度的视觉特征。这对于理解复杂场景、图表、文档等至关重要。

### 文本编码器与生成器

基于Transformer的文本处理模块，负责理解查询、生成响应、以及产生搜索指令。

### 智能体核心

这是POINTS-Seeker的独特之处——一个专门设计的模块，负责决策制定、行动规划、和结果整合。这个模块在Agentic Seeding阶段得到专门强化。

### 训练流程

训练分为三个阶段：

1. **基础预训练**：在大量图文数据上学习基本的多模态表示。

2. **Agentic Seeding**：在合成环境中培养智能体行为能力。

3. **监督微调**：在真实任务数据上优化性能。

## 实验结果：六个基准测试的全面领先

POINTS-Seeker-8B在六个不同的多模态搜索基准测试中取得了最先进的性能：

### 知识密集型视觉问答

在需要结合视觉理解和外部知识检索的任务中，POINTS-Seeker显著超越了现有方法。这证明了原生智能体设计相比工具添加范式的优势。

### 多跳推理

对于需要多步信息检索和推理的复杂问题，POINTS-Seeker的表现尤为出色。V-Fold的历史压缩机制在这里发挥了关键作用，使模型能够维护长程上下文而不迷失。

### 长程对话

在需要数十轮交互才能完成的任务中，POINTS-Seeker展现了稳定的性能，而对比方法随着轮次增加而显著下降。这验证了V-Fold的有效性。

### 跨模态检索

POINTS-Seeker在需要协调文本搜索和视觉理解的跨模态任务中也表现出色，显示了其架构的灵活性。

## 消融实验：验证关键组件

研究团队进行了详细的消融实验，验证了各个创新组件的贡献：

### Agentic Seeding的作用

去掉Agentic Seeding阶段后，模型性能显著下降，特别是在需要主动探索的开放域任务中。这证明了专门培养智能体行为的价值。

### V-Fold的效果

在长程交互场景中，去掉V-Fold后模型性能随着历史长度急剧下降。使用V-Fold后，性能曲线更加平坦，显示出良好的可扩展性。

### 视觉压缩 vs 文本截断

对比实验显示，V-Fold的视觉压缩策略优于简单的文本截断或滑动窗口方法。视觉表示保留了更多的结构化信息。

## 对多模态AI的启示

POINTS-Seeker的研究成果对多模态AI领域具有重要启示：

### 原生设计优于后期改造

对于复杂的智能体行为，从零开始设计专用架构可能比改造通用模型更有效。这类似于计算机视觉领域从通用CNN向专用架构（如DETR、SAM）的转变。

### 视觉不仅是输入，也是认知工具

V-Fold的创新在于将视觉不仅作为感知输入，也作为认知工具——用于压缩、组织和浏览复杂信息。这种双向利用视觉能力的思路值得进一步探索。

### 长程上下文需要专门优化

随着任务复杂度的增加，长程上下文处理将成为关键挑战。简单的注意力扩展可能不够，需要像V-Fold这样的专门机制。

## 实际应用前景

POINTS-Seeker的技术为多种实际应用开辟了可能：

### 智能研究助手

帮助研究人员浏览大量文献、图表、数据，自动检索相关信息并生成综合分析。

### 多模态客服系统

处理用户上传的图片、文档，结合产品知识库提供准确回答。

### 教育辅导工具

根据学生的提问和上传的作业图片，检索相关知识点并提供个性化解释。

### 医疗影像分析

结合医学影像和最新研究文献，辅助医生做出诊断决策。

## 局限性与未来方向

尽管取得了令人瞩目的成果，POINTS-Seeker仍存在一些局限：

### 计算成本

作为80亿参数的模型，POINTS-Seeker-8B的推理成本高于小型模型。开发更高效的变体是未来的重要方向。

### 检索质量依赖

模型性能很大程度上依赖于底层检索系统的质量。如何更好地处理检索失败或低质量结果，是需要进一步研究的问题。

### 安全与偏见

与所有检索增强系统一样，POINTS-Seeker可能继承检索来源中的偏见或错误信息。开发相应的安全机制至关重要。

### 未来方向

**更大规模的模型**：探索更大参数规模的POINTS-Seeker变体，测试规模效应。

**多模态检索**：扩展V-Fold框架，支持视频、音频等更多模态的历史压缩。

**持续学习**：让模型能够从交互中持续学习，不断改进搜索策略。

## 结语

POINTS-Seeker代表了多模态智能体搜索领域的重要突破。通过从零开始训练、引入Agentic Seeding培养智能体行为、以及V-Fold解决长程交互挑战，这一研究展示了专用架构设计的巨大潜力。

在AI系统日益复杂的今天，POINTS-Seeker提醒我们：针对特定能力进行原生设计，往往比通用架构的后期改造更加有效。这一理念可能不仅适用于多模态搜索，也会启发其他领域的架构创新。

随着多模态AI应用的普及，像POINTS-Seeker这样能够主动探索、高效整合信息的智能系统，将在我们的数字生活中扮演越来越重要的角色。