章节 01
GRAMformer:突破多模态交互限制的新型Transformer架构
GRAMformer核心亮点
GRAMformer提出体积多模态交叉注意力机制(VMA),打破传统Transformer仅能建模两两模态交互的局限,通过计算查询向量与多模态键向量构成的体积,实现任意阶模态联合依赖建模,为多模态学习开辟新路径。
基础信息
- 原作者:arXiv团队
- 来源平台:arXiv
- 原文标题:GRAMformer: Any-Order Modality Interactions via Volumetric Multimodal Cross-Attention
- 原文链接:http://arxiv.org/abs/2606.06249v1
- 发布时间:2026年6月4日