章节 01
【导读】TAG-Head:仅凭RGB视频实现细粒度动作识别的轻量级图神经网络头
ICPR 2026接收论文提出TAG-Head,一个即插即用的时空图头模块,无需额外模态即可将标准3D骨干网络升级为细粒度动作识别利器,在多项基准上超越多模态方法。该模块轻量高效,可无缝集成到SlowFast、R(2+1)D-34等主流架构,为细粒度动作识别提供新解决方案。
正文
ICPR 2026 接收论文提出 TAG-Head,一个即插即用的时空图头模块,无需额外模态即可将标准 3D 骨干网络升级为细粒度动作识别利器,在多项基准上超越多模态方法。
章节 01
ICPR 2026接收论文提出TAG-Head,一个即插即用的时空图头模块,无需额外模态即可将标准3D骨干网络升级为细粒度动作识别利器,在多项基准上超越多模态方法。该模块轻量高效,可无缝集成到SlowFast、R(2+1)D-34等主流架构,为细粒度动作识别提供新解决方案。
章节 02
细粒度人体动作识别(FHAR)需区分视觉相似的动作(如体操翻转、跳水转体),依赖微妙时空线索。传统方案依赖多模态信息(姿态、光流、文本)提升准确率,但存在额外标注成本高、计算复杂、系统臃肿等问题。
章节 03
TAG-Head是轻量级时空图头,可即插即用接入3D骨干网络。其双阶段流程:
章节 04
TAG-Head具有多重优势:
章节 05
在FineGym(Gym99/Gym288)、HAA500数据集上,TAG-Head取得RGB-only最优性能,且超越许多多模态方法。消融实验表明:Transformer编码器提供全局上下文,两种边类型组合对性能提升至关重要,单独使用任一类型无法达到完整模型效果。
章节 06
TAG-Head仅依赖RGB视频,可应用于:
章节 07
TAG-Head通过轻量级时空图头模块,在无额外模态下提升RGB-only细粒度识别性能,超越多模态对手。其设计原则(全局与局部平衡、时空融合)为视频理解提供新思路。研究团队承诺GitHub发布代码,促进技术传播与应用。