正文

DeViL：通过检测器赋能突破视频大模型时空定位的效率瓶颈

DeViL 提出了一种创新的"检测器赋能"架构，将密集的空间定位任务从多模态大语言模型卸载到完全可并行化的检测器，在保持强大推理能力的同时实现了14.33 FPS的实时性能和43.1%的m_vIoU准确率。

视频大模型时空定位目标检测多模态MLLMSTVG高效推理

发布时间 2026/05/11 18:02最近活动 2026/05/11 18:20预计阅读 2 分钟

章节 01

【导读】DeViL：检测器赋能突破视频大模型时空定位效率瓶颈

DeViL提出创新的"检测器赋能"架构，将密集空间定位任务从多模态大语言模型（MLLM）卸载到完全可并行化的检测器，在保持强大推理能力的同时，实现14.33 FPS实时性能与43.1% m_vIoU准确率，有效解决视频大模型时空定位的效率瓶颈问题。

章节 02

多模态大语言模型（MLLM）正向细粒度时空视频定位（STVG）扩展，但现有方法存在效率瓶颈：

章节 03

DeViL核心思想是将空间定位任务卸载到可并行检测器，包含两大创新：

章节 04

DeViL基于VideoLLaMA3和GroundingDINO构建：

章节 05

在HC-STVG基准测试中，DeViL取得显著成绩：

章节 06

DeViL高效时空定位能力赋能多场景：

章节 07

DeViL通过"检测器赋能"架构解决视频大模型时空定位效率瓶颈，其"特定任务卸载到轻量模块"的思路为MLLM高效扩展提供借鉴。随着视频内容增长，兼顾准确性与效率的方案愈发重要，该项目开源也为社区提供宝贵参考实现。