Zing 论坛

正文

POINTS-Seeker:从零训练多模态智能体搜索模型

本文介绍了POINTS-Seeker-8B,通过Agentic Seeding阶段和V-Fold历史压缩技术,实现了长程知识密集型视觉推理的突破,在六个基准测试中达到最先进性能。

多模态搜索智能体模型POINTS-Seeker视觉压缩长程推理知识检索Agentic Seeding
发布时间 2026/04/16 00:09最近活动 2026/04/16 09:52预计阅读 3 分钟
POINTS-Seeker:从零训练多模态智能体搜索模型
1

章节 01

POINTS-Seeker:从零训练多模态智能体搜索模型(导读)

本文介绍POINTS-Seeker-8B,一款从零训练的多模态智能体搜索模型。通过Agentic Seeding阶段培养智能体行为基础,结合V-Fold历史压缩技术解决长程交互瓶颈,在六个基准测试中实现长程知识密集型视觉推理的突破,达到最先进性能。

2

章节 02

现有多模态搜索范式的局限

当前主流多模态搜索方法为通用大视觉语言模型(LMMs)添加搜索工具,但存在三大问题:

  1. 能力错位:通用LMM训练目标是预测token,非最优利用工具;
  2. 交互效率低:搜索非核心训练部分,多轮尝试才能获取信息;
  3. 长程推理困难:交互历史累积导致关键信息定位能力下降。 POINTS-Seeker团队选择从零设计专用模型以克服这些局限。
3

章节 03

关键创新1:Agentic Seeding阶段

Agentic Seeding是专门设计的预训练阶段,旨在奠定智能体行为基础:

  • 识别知识缺口:判断何时需外部信息;
  • 制定搜索策略:根据问题决定搜索内容与方式;
  • 整合检索结果:结合视觉理解与已有知识;
  • 规划多步行动:设计复杂查询计划。 不同于简单工具训练,它培养主动探索、验证假设的智能体思维模式。
4

章节 04

关键创新2:V-Fold历史压缩技术

V-Fold解决长程交互瓶颈,核心设计:

  • 近期历史高保真保留:最近对话轮次完整保留;
  • 远期历史视觉压缩:将早期交互转化为图像表示;
  • 自适应切换:动态调整文本保留与视觉压缩比例。 视觉压缩优势:信息密度高,支持空间关系推理,帮助模型快速把握历史脉络。
5

章节 05

POINTS-Seeker-8B架构与训练流程

架构组件

  • 视觉编码器:先进视觉Transformer,处理高分辨率图像;
  • 文本编码器与生成器:Transformer模块,负责查询理解、响应生成与搜索指令;
  • 智能体核心:决策制定、行动规划与结果整合的专用模块。

训练流程

  1. 基础预训练:大量图文数据学习多模态表示;
  2. Agentic Seeding:合成环境培养智能体行为;
  3. 监督微调:真实任务数据优化性能。
6

章节 06

实验结果与消融验证

基准测试表现

POINTS-Seeker-8B在六个基准测试中领先:

  • 知识密集型视觉问答:超越工具添加范式;
  • 多跳推理:V-Fold助力长程上下文维护;
  • 长程对话:轮次增加性能稳定;
  • 跨模态检索:架构灵活性凸显。

消融实验

  • 去掉Agentic Seeding:开放域任务性能显著下降;
  • 去掉V-Fold:长程交互性能随历史长度急剧下降;
  • V-Fold优于文本截断:保留更多结构化信息。
7

章节 07

应用前景、局限性与未来方向

应用场景

  • 智能研究助手:文献/图表浏览与信息综合;
  • 多模态客服:处理图片/文档并结合知识库回答;
  • 教育辅导:个性化知识点检索与解释;
  • 医疗影像分析:结合影像与文献辅助诊断。

局限性

  • 计算成本高:80亿参数模型推理成本大;
  • 依赖检索质量:底层系统质量影响性能;
  • 安全与偏见:可能继承检索来源的问题。

未来方向

  • 更大规模模型:探索参数扩展的规模效应;
  • 多模态扩展:支持视频/音频的历史压缩;
  • 持续学习:从交互中改进搜索策略。