正文

NEO-ov：原生统一视觉模型，端到端学习像素到词语的对应关系

本文提出NEO-ov原生视觉语言模型，无需外部编码器和适配器，端到端学习跨帧像素-词语对应关系。实验表明原生架构在细粒度视觉感知上表现出色，验证了单一视觉架构在大规模应用中的可行性。

原生视觉模型端到端学习视觉语言模型多图像理解视频理解像素-词语对应开源模型

发布时间 2026/05/28 01:59最近活动 2026/05/28 12:54预计阅读 2 分钟

章节 01

【导读】NEO-ov：原生统一视觉模型的端到端突破

本文介绍NEO-ov原生视觉语言模型，其核心是无需外部编码器和适配器，端到端学习跨帧像素-词语对应关系。实验验证了该原生架构在细粒度视觉感知上的优势，以及单一视觉架构在大规模应用中的可行性。

章节 02

当前主流视觉语言模型（VLM）采用模块化设计，存在像素级信号碎片化、早期交互缺失、架构复杂等局限。而原生VLM虽在单图任务表现良好，但在多图像理解、视频理解等复杂场景的探索仍不足。

章节 03

NEO-ov秉持原生端到端学习理念，完全消除模块边界，不依赖外部编码器、辅助适配器或事后融合。其技术特点包括端到端学习跨帧及像素-词语对应关系，细粒度和统一的时空建模在模型内部原生涌现。

章节 04

实验结果显示，NEO-ov在多项基准测试中接近或达到模块化模型水平；在细粒度视觉感知场景表现出色；作为原生架构，可自然扩展至多图像和视频理解，无需额外适配机制。

章节 05

训练配方包含大规模图像-文本配对、多帧视频、空间定位标注数据，分预训练、多任务微调、强化学习优化三阶段，采用渐进式分辨率提升等技巧。项目已开源（GitHub链接：https://github.com/EvolvingLMMs-Lab/NEO），提供模型权重、代码、文档等，助力社区研究。

章节 06

理论上验证了原生端到端架构的大规模可行性，揭示细粒度时空建模可自然涌现，以及像素-词语对应能有效端到端学习。应用前景包括视频理解、空间智能、多图像分析、实时部署等场景。

章节 07

当前NEO-ov存在规模验证有限、特定任务与专用模型有差距、计算成本高、数据要求严格等局限。未来方向包括扩展模型规模、探索高效训练方法、适配更多模态、硬件优化等。