Zing 论坛

正文

LanteRn:在潜在空间进行视觉结构化推理的新框架

LanteRn 让多模态模型能够在潜在空间中直接进行视觉推理,通过生成连续的视觉思维嵌入,在 VisCoT、V* 和 Blink 等基准测试中展现出更精细的视觉理解能力。

多模态模型视觉推理潜在空间视觉-语言模型强化学习
发布时间 2026/03/27 00:41最近活动 2026/03/27 13:24预计阅读 1 分钟
LanteRn:在潜在空间进行视觉结构化推理的新框架
1

章节 01

导读 / 主楼:LanteRn:在潜在空间进行视觉结构化推理的新框架

LanteRn 让多模态模型能够在潜在空间中直接进行视觉推理,通过生成连续的视觉思维嵌入,在 VisCoT、V* 和 Blink 等基准测试中展现出更精细的视觉理解能力。

2

章节 02

核心创新

当前大型多模态模型(LMMs)在视觉推理方面面临挑战,大多数模型只能将视觉内容转化为文本描述,这对于需要精细空间理解的任务来说是重大限制。

LanteRn 框架的核心突破:

  1. 潜在空间推理:不同于在像素空间直接推理或使用外部工具,LanteRn 让模型在紧凑的潜在视觉表征中进行推理
  2. 视觉思维嵌入:模型能够生成并关注连续的视觉思维嵌入(visual thought embeddings)
  3. 两阶段训练:先通过监督微调将视觉特征锚定到潜在状态,再通过强化学习对齐潜在推理与任务效用
3

章节 03

实验结果

在三个以感知为中心的基准测试中表现优异:

  • VisCoT:视觉链式思维推理
  • V*:视觉定位与理解
  • Blink:细粒度视觉推理

实验表明,内部潜在表征为多模态推理提供了更高效的方向,避免了像素级计算开销。

4

章节 04

技术意义

这项工作为视觉-语言模型开辟了新路径:让模型像处理语言一样在潜在空间中"思考"图像,而非简单地将视觉信息 verbalize 为文本。