Zing 论坛

正文

NEO-ov:原生统一视觉模型,端到端学习像素到词语的对应关系

本文提出NEO-ov原生视觉语言模型,无需外部编码器和适配器,端到端学习跨帧像素-词语对应关系。实验表明原生架构在细粒度视觉感知上表现出色,验证了单一视觉架构在大规模应用中的可行性。

原生视觉模型端到端学习视觉语言模型多图像理解视频理解像素-词语对应开源模型
发布时间 2026/05/28 01:59最近活动 2026/05/28 12:54预计阅读 2 分钟
NEO-ov:原生统一视觉模型,端到端学习像素到词语的对应关系
1

章节 01

【导读】NEO-ov:原生统一视觉模型的端到端突破

本文介绍NEO-ov原生视觉语言模型,其核心是无需外部编码器和适配器,端到端学习跨帧像素-词语对应关系。实验验证了该原生架构在细粒度视觉感知上的优势,以及单一视觉架构在大规模应用中的可行性。

2

章节 02

研究背景:模块化架构的局限与原生VLM的探索缺口

当前主流视觉语言模型(VLM)采用模块化设计,存在像素级信号碎片化、早期交互缺失、架构复杂等局限。而原生VLM虽在单图任务表现良好,但在多图像理解、视频理解等复杂场景的探索仍不足。

3

章节 03

NEO-ov设计:原生端到端的统一视觉架构

NEO-ov秉持原生端到端学习理念,完全消除模块边界,不依赖外部编码器、辅助适配器或事后融合。其技术特点包括端到端学习跨帧及像素-词语对应关系,细粒度和统一的时空建模在模型内部原生涌现。

4

章节 04

性能表现:细粒度优势与多场景适配

实验结果显示,NEO-ov在多项基准测试中接近或达到模块化模型水平;在细粒度视觉感知场景表现出色;作为原生架构,可自然扩展至多图像和视频理解,无需额外适配机制。

6

章节 06

理论意义与应用前景

理论上验证了原生端到端架构的大规模可行性,揭示细粒度时空建模可自然涌现,以及像素-词语对应能有效端到端学习。应用前景包括视频理解、空间智能、多图像分析、实时部署等场景。

7

章节 07

局限与未来研究方向

当前NEO-ov存在规模验证有限、特定任务与专用模型有差距、计算成本高、数据要求严格等局限。未来方向包括扩展模型规模、探索高效训练方法、适配更多模态、硬件优化等。