Zing 论坛

正文

PaintBench:多模态图像编辑能力的确定性评测基准

PaintBench是一个针对生成式图像模型的评测框架,专注于精确的视觉编辑任务。与传统依赖人工评分或LLM评判的基准不同,PaintBench采用确定性的三元组结构,为图像编辑能力提供像素级精确的评估标准。

多模态模型图像生成视觉编辑评测基准生成式AI扩散模型计算机视觉AI评测
发布时间 2026/06/03 00:17最近活动 2026/06/03 00:20预计阅读 3 分钟
PaintBench:多模态图像编辑能力的确定性评测基准
1

章节 01

导读 / 主楼:PaintBench:多模态图像编辑能力的确定性评测基准

PaintBench是一个针对生成式图像模型的评测框架,专注于精确的视觉编辑任务。与传统依赖人工评分或LLM评判的基准不同,PaintBench采用确定性的三元组结构,为图像编辑能力提供像素级精确的评估标准。

2

章节 02

原作者与来源

  • 原作者/维护者:Kai Xu, Ellis Brown, Shrikar Madhu, Rob Fergus, He He, Saining Xie(纽约大学)
  • 来源平台:GitHub
  • 原始标题:PaintBench: Deterministic Evaluation of Precise Visual Editing
  • 原始链接:https://github.com/PaintBench/PaintBench
  • 来源发布时间/更新时间:2026-06-02
3

章节 03

背景:图像生成模型的评测困境

近年来,以扩散模型为代表的生成式图像模型取得了令人瞩目的进展。从DALL-E到Stable Diffusion,再到最新的GPT-Image,这些模型能够根据文本描述生成高质量的图像。然而,随着模型能力的提升,如何准确评估它们在精确视觉编辑任务上的表现,成为了一个亟待解决的问题。

传统的图像生成评测往往依赖人工评分或大型语言模型作为评判者,这种方法存在主观性强、成本高昂、难以复现等问题。更重要的是,对于需要精确控制像素级别的编辑任务(如将某个区域重新着色、移动特定形状、绘制边框等),模糊的"好坏"评判标准显然是不够的。

4

章节 04

PaintBench的核心创新:确定性评估

PaintBench由纽约大学的研究团队开发,提出了一种全新的评测范式。它摒弃了主观评判,转而采用确定性的三元组结构:

(input_image, instruction, answer_image)

每个评测样本都是从种子生成的,因此答案图像是像素级精确的,答案分布也是已知的。这意味着:

  • 无需人工评分:结果是确定的,不存在评判偏差
  • 无需LLM评判:避免了模型评判带来的额外变量
  • 可完全复现:相同的种子总是产生相同的结果
  • 明确的对错标准:每个像素的位置和颜色都是预先确定的
5

章节 05

评测任务体系

PaintBench包含20个评测任务,分布在四大能力类别中,每个任务在8种视觉条件下各包含12个问题,总计1920个评分问题。此外还有一个96题的保留测试集用于诊断输入保真度的下限。

6

章节 06

1. 几何变换(Geometric Transformation)

这类任务测试模型对基本几何操作的理解和执行能力:

  • 平移(Translation):将图像中的对象移动到指定位置
  • 旋转(Rotation):按指定角度旋转对象
  • 镜像(Reflection):沿指定轴进行镜像翻转
  • 缩放(Scaling):按比例放大或缩小对象
  • 剪切(Shearing):对图像进行斜切变换

这些任务看似简单,但对于生成式模型而言,要在保持图像质量的同时精确执行几何变换,仍然具有挑战性。

7

章节 07

2. 结构操作(Structural Manipulation)

这类任务涉及对图像结构的增删改操作:

  • 构造(Construction):在指定位置添加新的图形元素
  • 移除(Removal):删除指定的图像区域
  • 复制(Copying):复制并放置图像中的对象
  • 边框(Border):为指定区域添加边框
  • 裁剪(Cropping):按指定坐标裁剪图像

结构操作要求模型理解图像的层次结构和空间关系,是评估模型空间推理能力的重要指标。

8

章节 08

3. 颜色变更(Color Change)

颜色操作是图像编辑中最常见的需求之一:

  • 重新着色(Recolor):将指定区域改为目标颜色
  • 填充(Flood Fill):类似画图工具的桶填充功能
  • 混合(Blending):将两种颜色按指定比例混合
  • 渐变(Gradient):生成从一种颜色到另一种颜色的渐变
  • 点操作(Point Operations):对特定像素点进行颜色调整

这些任务测试模型对颜色空间、色彩理论和像素级精确控制的理解。