正文

POINTS-Seeker：从零训练多模态智能体搜索模型

本文介绍了POINTS-Seeker-8B，通过Agentic Seeding阶段和V-Fold历史压缩技术，实现了长程知识密集型视觉推理的突破，在六个基准测试中达到最先进性能。

多模态搜索智能体模型POINTS-Seeker视觉压缩长程推理知识检索Agentic Seeding

发布时间 2026/04/16 00:09最近活动 2026/04/16 09:52预计阅读 3 分钟

章节 01

POINTS-Seeker：从零训练多模态智能体搜索模型（导读）

本文介绍POINTS-Seeker-8B，一款从零训练的多模态智能体搜索模型。通过Agentic Seeding阶段培养智能体行为基础，结合V-Fold历史压缩技术解决长程交互瓶颈，在六个基准测试中实现长程知识密集型视觉推理的突破，达到最先进性能。

章节 02

现有多模态搜索范式的局限

当前主流多模态搜索方法为通用大视觉语言模型（LMMs）添加搜索工具，但存在三大问题：

能力错位：通用LMM训练目标是预测token，非最优利用工具；
交互效率低：搜索非核心训练部分，多轮尝试才能获取信息；
长程推理困难：交互历史累积导致关键信息定位能力下降。 POINTS-Seeker团队选择从零设计专用模型以克服这些局限。

章节 03

关键创新1：Agentic Seeding阶段

Agentic Seeding是专门设计的预训练阶段，旨在奠定智能体行为基础：

识别知识缺口：判断何时需外部信息；
制定搜索策略：根据问题决定搜索内容与方式；
整合检索结果：结合视觉理解与已有知识；
规划多步行动：设计复杂查询计划。不同于简单工具训练，它培养主动探索、验证假设的智能体思维模式。

章节 04

关键创新2：V-Fold历史压缩技术

V-Fold解决长程交互瓶颈，核心设计：

近期历史高保真保留：最近对话轮次完整保留；
远期历史视觉压缩：将早期交互转化为图像表示；
自适应切换：动态调整文本保留与视觉压缩比例。视觉压缩优势：信息密度高，支持空间关系推理，帮助模型快速把握历史脉络。

章节 05

POINTS-Seeker-8B架构与训练流程

架构组件

视觉编码器：先进视觉Transformer，处理高分辨率图像；
文本编码器与生成器：Transformer模块，负责查询理解、响应生成与搜索指令；
智能体核心：决策制定、行动规划与结果整合的专用模块。

训练流程

基础预训练：大量图文数据学习多模态表示；
Agentic Seeding：合成环境培养智能体行为；
监督微调：真实任务数据优化性能。

章节 06

实验结果与消融验证

基准测试表现

POINTS-Seeker-8B在六个基准测试中领先：

知识密集型视觉问答：超越工具添加范式；
多跳推理：V-Fold助力长程上下文维护；
长程对话：轮次增加性能稳定；
跨模态检索：架构灵活性凸显。

消融实验

去掉Agentic Seeding：开放域任务性能显著下降；
去掉V-Fold：长程交互性能随历史长度急剧下降；
V-Fold优于文本截断：保留更多结构化信息。

章节 07

应用前景、局限性与未来方向

应用场景

智能研究助手：文献/图表浏览与信息综合；
多模态客服：处理图片/文档并结合知识库回答；
教育辅导：个性化知识点检索与解释；
医疗影像分析：结合影像与文献辅助诊断。

局限性

计算成本高：80亿参数模型推理成本大；
依赖检索质量：底层系统质量影响性能；
安全与偏见：可能继承检索来源的问题。

未来方向

更大规模模型：探索参数扩展的规模效应；
多模态扩展：支持视频/音频的历史压缩；
持续学习：从交互中改进搜索策略。