正文

统一像素与词元的生成式语言模型：突破多模态视觉理解瓶颈

本文介绍了一种新型多模态模型架构，将图像像素级token与文本词元统一纳入生成式语言模型，通过为每个像素独立分配嵌入、颜色折叠、全局条件注意力近似等技术，显著提升了细粒度视觉理解能力，尤其在识别图像中的小文本和数字方面表现突出。

多模态模型视觉Transformer像素级表示生成式AICLIPSigLIP无监督预训练规模定律

发布时间 2026/05/14 02:38最近活动 2026/05/15 12:20预计阅读 2 分钟

章节 01

【主楼】统一像素与词元的生成式模型：突破多模态视觉细粒度理解瓶颈

本文介绍一种新型多模态模型架构，将图像像素级token与文本词元统一纳入生成式语言模型，通过像素独立嵌入、颜色折叠、全局条件注意力近似及图像无监督预训练等技术，解决传统模型细粒度视觉信息丢失问题，显著提升小文本、数字识别能力。实验显示该架构数据与参数效率优秀，遵循规模定律，具有广泛应用前景。

章节 02

自Vision Transformer（ViT）问世以来，其成为生成式语言与视觉模型核心组件。主流开源多模态模型以CLIP或SigLIP方法的ViT为视觉编码器，但该架构将图像压缩为固定数量视觉token，导致细粒度信息丢失，在识别小文本、数字等场景表现不佳。

章节 03

针对传统局限，新架构有四大创新：1.像素级独立嵌入：为每个像素分配独立token嵌入，保留完整细节；2.颜色折叠机制：控制计算开销，保证信息完整性；3.全局条件注意力近似：高效建立像素与词元的长距离依赖；4.图像无监督预训练：纯视觉预训练深入理解图像结构，为跨模态任务奠基。

章节 04

实验表明，即使模型规模小、训练数据有限，新架构仍表现良好，数据与参数效率优秀。且该模型遵循规模定律，随参数量增加和数据扩充，性能将持续提升。

章节 05

该研究提出全新多模态建模范式，不同于主流CLIP/ViT路线。应用场景包括：文档理解（提取PDF/扫描件文字数字）、图表分析（读取统计/财务数据）、OCR增强（复杂场景文字识别）、视觉问答（精确视觉信息问答）。

章节 06

当前方法面临计算复杂度提升的挑战，未来需优化效率；同时需探索如何更好适配下游任务，以及与音频、视频等其他模态融合。