正文

UniEditBench：基于蒸馏多模态大模型的图像视频编辑统一基准测试平台

本文提出UniEditBench统一基准，支持图像和视频的重建与指令驱动编辑评估，通过将235B参数MLLM蒸馏为4B/8B轻量评估器，实现低成本高质量评估。

视觉编辑基准测试多模态大模型知识蒸馏UniEditBench图像视频编辑评估指标

发布时间 2026/04/17 17:21最近活动 2026/04/20 10:26预计阅读 2 分钟

章节 01

【导读】UniEditBench：图像视频编辑统一基准与低成本评估方案

本文提出UniEditBench统一基准测试平台，支持图像和视频的重建与指令驱动编辑评估。其核心创新在于：1）建立统一评估协议，解决现有评估碎片化问题；2）通过知识蒸馏将235B参数多模态大模型（MLLM）转化为4B/8B轻量评估器，实现低成本高质量评估，对齐人类偏好。

章节 02

视觉编辑技术快速发展，但评估方法滞后且碎片化：

章节 03

UniEditBench设计统一评估协议，支持多种编辑范式：

输入输出标准化：统一源数据、编辑指令/示例及输出格式；
评估维度一致：覆盖结构保真度、文本对齐度等通用维度；
任务分类体系：
- 图像编辑（9类）：Add/Remove/Replace/Change等操作；
- 视频编辑（8类）：在图像基础上增加时序相关维度，含Count/Reorder等挑战性任务。

章节 04

通过知识蒸馏构建轻量评估器：

章节 05

实验结果表明：

章节 06

该平台的应用场景包括：

章节 07

当前局限及改进方向：