# NEO-ov：原生统一视觉模型，端到端学习像素到词语的对应关系

> 本文提出NEO-ov原生视觉语言模型，无需外部编码器和适配器，端到端学习跨帧像素-词语对应关系。实验表明原生架构在细粒度视觉感知上表现出色，验证了单一视觉架构在大规模应用中的可行性。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-05-27T17:59:55.000Z
- 最近活动: 2026-05-28T04:54:14.449Z
- 热度: 138.1
- 关键词: 原生视觉模型, 端到端学习, 视觉语言模型, 多图像理解, 视频理解, 像素-词语对应, 开源模型
- 页面链接: https://www.zingnex.cn/forum/thread/neo-ov
- Canonical: https://www.zingnex.cn/forum/thread/neo-ov
- Markdown 来源: ingested_event

---

## 原作者与来源

- 原作者/维护者：arXiv authors
- 来源平台：arxiv
- 原始标题：From Pixels to Words -- Towards Native One-Vision Models at Scale
- 原始链接：http://arxiv.org/abs/2605.28820v1
- 来源发布时间/更新时间：2026-05-27T17:59:55Z

## 原作者与来源\n\n- 原作者/维护者：EvolvingLMMs-Lab\n- 来源平台：arxiv\n- 原始标题：From Pixels to Words -- Towards Native One-Vision Models at Scale\n- 原始链接：http://arxiv.org/abs/2605.28820v1\n- 来源发布时间/更新时间：2026-05-27T17:59:55Z\n\n## 研究背景：模块化架构的局限\n\n当前视觉语言模型（VLM）的主流架构采用模块化设计：独立的图像编码器和语言解码器通过多阶段对齐连接。这种设计虽然简化了开发流程，但存在根本性局限：\n\n**像素级信号碎片化**：跨帧的像素级信号在模块边界处被分割，丢失了细粒度的时空连贯性。\n\n**早期交互缺失**：像素与词语的交互被推迟到后期融合阶段，错过了早期特征学习的机会。\n\n**架构复杂性**：多阶段对齐增加了系统的复杂性和训练难度。\n\n与此同时，原生VLM（native VLM）虽然在单张图像任务上表现出色，但在多图像理解、视频理解和空间智能等更复杂的场景下仍未得到充分探索。\n\n## NEO-ov：原生统一视觉架构\n\n研究团队提出的NEO-ov代表了一种全新的设计哲学——**原生端到端学习**：\n\n**核心设计理念**：\n- 完全消除模块边界，不依赖外部编码器\n- 不使用辅助适配器\n- 不进行事后融合\n\n**技术特点**：\n- 端到端学习跨帧对应关系\n- 端到端学习像素-词语对应关系\n- 细粒度和统一的时空建模在模型内部原生涌现\n\n这种"单一视觉"（One-Vision）架构从根本上改变了视觉-语言建模的方式。\n\n## 架构优势分析\n\n相比模块化架构，NEO-ov具有显著优势：\n\n### 信号完整性\n像素级信号从输入到输出保持完整，不会在模块间传递时丢失信息。这对于细粒度视觉理解至关重要。\n\n### 早期交互\n像素和词语的交互从最早阶段就开始，模型可以学习更丰富的跨模态表征。\n\n### 统一建模\n时空信息在单一框架内统一处理，无需分别处理空间和时间维度后再进行融合。\n\n### 简化设计\n消除了复杂的对齐阶段和适配器模块，架构更加简洁优雅。\n\n## 性能表现：缩小差距与超越\n\n实验结果表明NEO-ov取得了令人印象深刻的性能：\n\n**缩小与模块化模型的差距**：尽管采用完全不同的架构范式，NEO-ov在多项基准测试上接近或达到了模块化对应模型的水平。\n\n**细粒度视觉感知的优势**：在需要精细视觉理解的场景中，原生架构表现出色，验证了端到端学习的价值。\n\n**多图像和视频理解**：作为原生架构，NEO-ov自然地扩展到多图像和视频场景，无需额外的适配机制。\n\n## 训练配方与实现细节\n\n研究团队不仅开源了模型，还详细披露了训练配方：\n\n**数据策略**：\n- 大规模图像-文本配对数据\n- 多帧视频数据\n- 空间定位标注数据\n\n**训练阶段**：\n- 预训练阶段：建立基础的像素-词语对应\n- 多任务微调：适应多样化的下游任务\n- 强化学习优化：提升特定能力\n\n**优化技巧**：\n- 渐进式分辨率提升\n- 课程学习策略\n- 多尺度特征融合\n\n这些细节的公开为后续研究提供了宝贵的参考。\n\n## 开源贡献与社区影响\n\nNEO-ov项目已在GitHub开源（https://github.com/EvolvingLMMs-Lab/NEO），包括：\n\n- 完整的模型权重\n- 训练代码和配置文件\n- 详细的文档和示例\n- 预训练数据集信息\n\n这种开放态度有助于：\n- 推动原生多模态架构的研究\n- 降低新研究者的入门门槛\n- 建立行业最佳实践\n- 促进学术界的可复现研究\n\n## 理论意义\n\nNEO-ov的成功对VLM领域有深远的理论意义：\n\n**架构范式的验证**：证明了原生端到端架构在大规模应用中的可行性，挑战了模块化设计的统治地位。\n\n**涌现能力的启示**：细粒度的时空建模能力可以从统一架构中自然涌现，无需显式设计。\n\n**跨模态学习的本质**：像素-词语对应可以在端到端框架中有效学习，暗示了更深层的学习机制。\n\n## 应用前景\n\nNEO-ov的原生架构为多种应用开辟了新的可能性：\n\n**视频理解**：自然的时序建模能力使其在视频问答、视频摘要等任务上具有优势。\n\n**空间智能**：细粒度的像素级理解支持更精确的空间推理和导航任务。\n\n**多图像分析**：无需额外适配即可处理多图像输入，适用于视觉对话、图像比较等场景。\n\n**实时应用**：简化的架构可能带来推理效率的提升，适合部署在资源受限的环境中。\n\n## 局限与未来方向\n\n尽管取得了重要进展，NEO-ov仍有改进空间：\n\n- 当前主要在特定规模上验证，更大规模的表现有待探索\n- 与某些专用模块化模型相比，在特定任务上可能仍有差距\n- 训练原生架构的计算成本较高\n- 对训练数据的规模和质量要求更高\n\n未来研究方向包括：\n- 扩展到更大的模型规模\n- 探索更高效的训练方法\n- 应用到更多模态（音频、3D等）\n- 开发专门的硬件优化\n\n## 结语\n\nNEO-ov代表了视觉语言模型架构演进的重要一步。通过完全消除模块边界，实现端到端的原生学习，该研究不仅提供了性能上的竞争力，更重要的是展示了一种新的可能性——简单、统一的原生架构可以匹配甚至超越复杂的模块化设计。对于关注多模态AI、视觉理解和端到端学习的研究者来说，NEO-ov提供了一个值得深入探索的新方向。