Zing 论坛

正文

统一像素与词元的生成式语言模型:突破多模态视觉理解瓶颈

本文介绍了一种新型多模态模型架构,将图像像素级token与文本词元统一纳入生成式语言模型,通过为每个像素独立分配嵌入、颜色折叠、全局条件注意力近似等技术,显著提升了细粒度视觉理解能力,尤其在识别图像中的小文本和数字方面表现突出。

多模态模型视觉Transformer像素级表示生成式AICLIPSigLIP无监督预训练规模定律
发布时间 2026/05/14 02:38最近活动 2026/05/15 12:20预计阅读 2 分钟
统一像素与词元的生成式语言模型:突破多模态视觉理解瓶颈
1

章节 01

【主楼】统一像素与词元的生成式模型:突破多模态视觉细粒度理解瓶颈

本文介绍一种新型多模态模型架构,将图像像素级token与文本词元统一纳入生成式语言模型,通过像素独立嵌入、颜色折叠、全局条件注意力近似及图像无监督预训练等技术,解决传统模型细粒度视觉信息丢失问题,显著提升小文本、数字识别能力。实验显示该架构数据与参数效率优秀,遵循规模定律,具有广泛应用前景。

2

章节 02

【背景】传统多模态模型的视觉理解困境

自Vision Transformer(ViT)问世以来,其成为生成式语言与视觉模型核心组件。主流开源多模态模型以CLIP或SigLIP方法的ViT为视觉编码器,但该架构将图像压缩为固定数量视觉token,导致细粒度信息丢失,在识别小文本、数字等场景表现不佳。

3

章节 03

【方法】像素级token与词元统一的关键技术

针对传统局限,新架构有四大创新:1.像素级独立嵌入:为每个像素分配独立token嵌入,保留完整细节;2.颜色折叠机制:控制计算开销,保证信息完整性;3.全局条件注意力近似:高效建立像素与词元的长距离依赖;4.图像无监督预训练:纯视觉预训练深入理解图像结构,为跨模态任务奠基。

4

章节 04

【实验】小模型也能有效,遵循规模定律

实验表明,即使模型规模小、训练数据有限,新架构仍表现良好,数据与参数效率优秀。且该模型遵循规模定律,随参数量增加和数据扩充,性能将持续提升。

5

章节 05

【意义】技术范式突破与应用前景

该研究提出全新多模态建模范式,不同于主流CLIP/ViT路线。应用场景包括:文档理解(提取PDF/扫描件文字数字)、图表分析(读取统计/财务数据)、OCR增强(复杂场景文字识别)、视觉问答(精确视觉信息问答)。

6

章节 06

【展望】未来优化方向

当前方法面临计算复杂度提升的挑战,未来需优化效率;同时需探索如何更好适配下游任务,以及与音频、视频等其他模态融合。