正文

Edit-R2：面向多轮图像编辑的上下文感知强化学习框架

Edit-R2是一种新颖的强化学习后训练框架，通过重构会话意图和统一优化目标，解决了多轮图像编辑中的长上下文稀释和状态污染问题，并配套发布了MICE-Bench评测基准。

多轮图像编辑强化学习多模态模型上下文感知会话意图重构流匹配生成MICE-Bench状态污染长上下文稀释

发布时间 2026/06/04 17:49最近活动 2026/06/05 18:48预计阅读 2 分钟

章节 01

导读：Edit-R2框架解决多轮图像编辑核心难题

Edit-R2是一种面向多轮图像编辑的上下文感知强化学习后训练框架，通过重构会话意图和统一优化目标，有效解决了长上下文稀释和状态污染问题，并配套发布了MICE-Bench评测基准。该框架旨在提升多轮图像编辑的准确性与稳定性，推动技术向更贴近用户实际需求的协作式交互演进。

章节 02

文本引导的图像编辑技术近年进步显著，但多数方法局限于单轮场景。实际使用中，图像编辑常为迭代过程（如先换背景再添加元素），更具实际价值。然而，连续编辑面临两大耦合失效模式：长上下文稀释与状态污染，这是当前模型的核心痛点。

章节 03

长上下文稀释：随轮次增加，历史图像-文本信息累积，稀疏文本约束易被淹没（如早期“保持面部特征”的约束丢失）；2. 状态污染：早期编辑错误会持续存在甚至放大，像滚雪球般影响后续结果。两者相互纠缠，加剧多轮编辑难度。

章节 04

Edit-R2从三方面解决挑战：1. 会话意图重构：每轮前提炼历史约束为清晰推理轨迹，缓解长上下文稀释；2. 统一优化目标：同时优化离散文本意图生成与连续潜空间图像生成，形成端到端闭环；3. 轨迹过滤机制：训练中抑制含错误的编辑序列，解决状态污染问题。

章节 05

研究团队推出MICE-Bench评测基准，包含三个自动化指标：1. 指令遵循度（IF）：评估每轮指令执行准确性；2. 内容一致性（CC）：检验图像与历史内容的一致性；3. 全局感知度（GA）：衡量对累积会话约束的整体把握能力，为领域研究提供标准化评估手段。

章节 06

实验显示Edit-R2显著提升多轮编辑能力，优于基线方法。关键洞察：显式管理会话级约束比堆叠历史信息更有效。应用上，让用户可逐步迭代编辑，使工具从“被动工具”向“主动协作者”转变，更贴近真实工作流程。

章节 07

Edit-R2的显式意图重构思路可推广到多轮对话、渐进式代码生成等序列决策场景。未来，如何利用多模态模型处理复杂长期交互任务将是重要方向，Edit-R2与MICE-Bench为该领域奠定了技术基础。