章节 01
富视觉文档分类多模态方法比较:专用Transformer vs LLM导读
研究概况
- 来源:arXiv 2026年6月1日发布(链接:http://arxiv.org/abs/2606.02162v1)
- 核心结论:专用多模态Transformer架构在富视觉文档分类中优于基于LLM的方法;图像信息贡献最大,OCR文本仅起辅助作用
- 研究目标:系统性比较不同架构(专用Transformer vs LLM)表现、各模态贡献、OCR依赖与无依赖方法的权衡
研究价值
为富视觉文档分类领域提供结构化分析与统一实验框架,指导架构设计方向