章节 01
ATLAS框架:用功能词元统一代理式与隐式视觉推理的新范式
ATLAS框架是由香港中文大学、上海人工智能实验室等机构提出的视觉推理新范式,核心创新在于通过功能词元将代理式推理与隐式视觉推理统一为单一离散词元。该设计既消除了代理式推理的外部执行延迟,又保留了可解释性;同时引入LA-GRPO算法解决功能词元训练的稀疏性问题,实现性能与可解释性的双赢。
正文
ATLAS框架通过"功能词元"将代理式推理与隐式视觉推理统一为单一离散词元,既避免了外部执行延迟,又保留了可解释性,并引入LA-GRPO稳定训练。
章节 01
ATLAS框架是由香港中文大学、上海人工智能实验室等机构提出的视觉推理新范式,核心创新在于通过功能词元将代理式推理与隐式视觉推理统一为单一离散词元。该设计既消除了代理式推理的外部执行延迟,又保留了可解释性;同时引入LA-GRPO算法解决功能词元训练的稀疏性问题,实现性能与可解释性的双赢。
章节 02
视觉推理需处理中间视觉状态,但现有两条技术路线存在局限:
章节 03
功能词元是ATLAS的核心,具有三重设计:
章节 04
功能词元训练初期面临稀疏性挑战(占比极小,梯度信号微弱)。LA-GRPO算法通过引入静态加权的辅助目标,为功能词元设置锚定损失项,即使批次中功能词元少也能提供稳定梯度,既保留GRPO的样本效率,又解决训练不稳定问题。
章节 05
ATLAS在多个视觉推理基准上表现优异:
章节 06
ATLAS的意义在于揭示离散词元可作为符号推理与神经计算的桥梁,统一代理式(符号、可解释)与神经推理(连续、高效)。未来展望包括:
章节 07
ATLAS项目代码已开源:https://github.com/ZiyuGuo99/ATLAS 论文链接:https://arxiv.org/abs/2605.15198