Zing 论坛

正文

DeViL:通过检测器赋能突破视频大模型时空定位的效率瓶颈

DeViL 提出了一种创新的"检测器赋能"架构,将密集的空间定位任务从多模态大语言模型卸载到完全可并行化的检测器,在保持强大推理能力的同时实现了14.33 FPS的实时性能和43.1%的m_vIoU准确率。

视频大模型时空定位目标检测多模态MLLMSTVG高效推理
发布时间 2026/05/11 18:02最近活动 2026/05/11 18:20预计阅读 2 分钟
DeViL:通过检测器赋能突破视频大模型时空定位的效率瓶颈
1

章节 01

【导读】DeViL:检测器赋能突破视频大模型时空定位效率瓶颈

DeViL提出创新的"检测器赋能"架构,将密集空间定位任务从多模态大语言模型(MLLM)卸载到完全可并行化的检测器,在保持强大推理能力的同时,实现14.33 FPS实时性能与43.1% m_vIoU准确率,有效解决视频大模型时空定位的效率瓶颈问题。

2

章节 02

项目背景与挑战

多模态大语言模型(MLLM)正向细粒度时空视频定位(STVG)扩展,但现有方法存在效率瓶颈:

  1. 直接定位范式:解码成本随查询时间跨度线性增长;
  2. 候选选择范式:依赖高昂成本的候选构建流程。两者均限制实际部署可行性。
3

章节 03

DeViL的核心创新方法

DeViL核心思想是将空间定位任务卸载到可并行检测器,包含两大创新:

  1. 参考语义令牌蒸馏:将查询蒸馏为检测器兼容的令牌,替代文本嵌入,单次前向完成空间定位,避免递归解码开销;
  2. 时间一致性正则化:匹配跨帧对象,强制时序连贯性,确保同一目标定位结果稳定连续。
4

章节 04

技术实现细节

DeViL基于VideoLLaMA3和GroundingDINO构建:

  • VideoLLaMA3提供强大视频理解能力;
  • GroundingDINO提供高效准确目标检测能力。 模块化设计使其可灵活集成到不同MLLM架构,为视频理解研究与应用提供新可能。
5

章节 05

性能表现与实验结果

在HC-STVG基准测试中,DeViL取得显著成绩:

  • 准确率:43.1% m_vIoU;
  • 效率:14.33 FPS。 结果表明,DeViL在保持MLLM通用推理能力的同时,避免长坐标解码与繁重候选管道,实现性能与效率双重突破。
6

章节 06

应用场景与意义

DeViL高效时空定位能力赋能多场景:

  • 智能监控:实时定位分析特定事件/对象;
  • 自动驾驶:快速识别跟踪道路关键目标;
  • 视频内容分析:为检索、摘要提供精确时空信息;
  • 人机交互:支持自然语言描述的视频内容查询定位。
7

章节 07

总结与展望

DeViL通过"检测器赋能"架构解决视频大模型时空定位效率瓶颈,其"特定任务卸载到轻量模块"的思路为MLLM高效扩展提供借鉴。随着视频内容增长,兼顾准确性与效率的方案愈发重要,该项目开源也为社区提供宝贵参考实现。