Zing 论坛

正文

ATLAS:用单个词元统一代理式与隐式视觉推理的新范式

ATLAS框架通过"功能词元"将代理式推理与隐式视觉推理统一为单一离散词元,既避免了外部执行延迟,又保留了可解释性,并引入LA-GRPO稳定训练。

视觉推理多模态大模型功能词元ATLASGRPO强化学习代理式AI隐式推理词元预测可解释AI
发布时间 2026/05/15 01:59最近活动 2026/05/16 01:18预计阅读 2 分钟
ATLAS:用单个词元统一代理式与隐式视觉推理的新范式
1

章节 01

ATLAS框架:用功能词元统一代理式与隐式视觉推理的新范式

ATLAS框架是由香港中文大学、上海人工智能实验室等机构提出的视觉推理新范式,核心创新在于通过功能词元将代理式推理与隐式视觉推理统一为单一离散词元。该设计既消除了代理式推理的外部执行延迟,又保留了可解释性;同时引入LA-GRPO算法解决功能词元训练的稀疏性问题,实现性能与可解释性的双赢。

2

章节 02

背景:视觉推理的两难困境

视觉推理需处理中间视觉状态,但现有两条技术路线存在局限:

  • 代理式推理:通过代码/外部工具操作视觉内容,可解释性强但上下文切换开销大,推理速度慢;
  • 隐式推理:用内部隐藏嵌入表示视觉状态,速度快但缺乏泛化能力,难以与自回归并行训练兼容。
3

章节 03

ATLAS核心:功能词元的三重设计

功能词元是ATLAS的核心,具有三重设计:

  1. 内部化视觉操作:关联内部视觉操作(如旋转、放大),无需外部工具,消除延迟;
  2. 标准词元属性:属于分词器词汇表,可通过标准词元预测生成,无需修改模型架构;
  3. 无需视觉监督:通过端到端任务目标(如问答正确性)自动学习,无需显式视觉标注。
4

章节 04

LA-GRPO:解决功能词元训练稀疏性的关键算法

功能词元训练初期面临稀疏性挑战(占比极小,梯度信号微弱)。LA-GRPO算法通过引入静态加权的辅助目标,为功能词元设置锚定损失项,即使批次中功能词元少也能提供稳定梯度,既保留GRPO的样本效率,又解决训练不稳定问题。

5

章节 05

实验验证:ATLAS在多任务上的性能表现

ATLAS在多个视觉推理基准上表现优异:

  • 几何推理:精确空间关系判断任务中,功能词元清晰展示推理过程;
  • 视觉问答:复杂多步推理问答中,准确率领先且能通过功能词元序列解释逻辑;
  • 基线对比:推理延迟较纯代理式方法降低数量级,泛化能力和训练稳定性优于纯隐式方法。
6

章节 06

技术意义与未来方向:离散词元连接符号与神经推理

ATLAS的意义在于揭示离散词元可作为符号推理与神经计算的桥梁,统一代理式(符号、可解释)与神经推理(连续、高效)。未来展望包括:

  1. 工具学习内化:将常用工具功能内化为功能词元;
  2. 多模态统一表征:功能词元作为多模态操作接口;
  3. 可解释性增强:离散词元使推理过程透明,适用于高风险场景。