Zing 论坛

正文

ARM:基于离散表征的自回归多模态模型,统一图像理解、生成与编辑

ARM通过语义视觉分词器和强化学习优化,在单一自回归框架内实现了图像理解、生成和编辑的统一,并发现了跨任务协同效应。

多模态模型自回归图像生成图像编辑视觉分词器强化学习离散表征
发布时间 2026/06/10 01:59最近活动 2026/06/10 10:52预计阅读 3 分钟
ARM:基于离散表征的自回归多模态模型,统一图像理解、生成与编辑
1

章节 01

导读:ARM——统一图像理解、生成与编辑的自回归多模态模型

ARM:基于离散表征的自回归多模态模型,统一图像理解、生成与编辑

核心观点:ARM通过语义视觉分词器和强化学习优化,在单一自回归框架内实现图像理解、生成与编辑的统一,并发现跨任务协同效应。 原作者/团队:论文作者团队(arXiv:2606.11188v1) 来源平台:arXiv 原文链接http://arxiv.org/abs/2606.11188v1 代码仓库https://github.com/wdrink/ARM 发布时间:2026年6月9日

2

章节 02

背景:多模态AI的统一困境

多模态AI的统一困境

在AI发展中,统一多模态智能是长期目标——让单一模型同时理解、生成和编辑视觉内容。但现实是模型碎片化:理解、生成、编辑模型各自为政,带来三大问题:

  • 架构冗余:每个任务需专门模型和训练流程
  • 能力隔离:理解与生成能力难以转化
  • 交互复杂:跨任务协作需繁琐接口转换 ARM的提出旨在打破这一僵局,证明自回归架构可成为多模态统一的基石。
3

章节 03

方法:ARM的三层架构设计

ARM的三层架构设计

ARM的成功基于三个技术支柱:

1. 语义视觉分词器

将图像转为离散token序列,通过多目标监督优化:

  • 语义判别性(区分视觉概念)
  • 语言对齐(与语言空间对齐)
  • 忠实重建(准确还原图像)

2. 7B自回归多模态模型

70亿参数模型在文本和图像token序列上学习,优势:

  • 自然多模态融合(next-token prediction学习联合分布)
  • 无需显式对齐模块
  • 统一训练目标简化优化

3. 强化学习偏好优化

提升生成/编辑质量,优化目标:

  • 视觉质量(美观真实)
  • 指令遵循(执行编辑指令)
  • 编辑一致性(保持连贯性)
4

章节 04

证据:跨任务协同效应的实验结果

跨任务协同效应的实验证据

ARM实验中最意外的发现是RL优化带来的跨任务协同:

  • 文本到图像生成:WISE整体评分从0.50提升到0.56
  • 指令引导编辑:GEdit-Bench-EN的G_O指标从5.75提升到6.68 更关键的是,两个任务间产生正向协同——优化生成能力帮助编辑,反之亦然。这表明统一表征空间下任务学习可相互促进。
5

章节 05

结论:ARM的技术意义与行业影响

ARM的技术意义与行业影响

ARM的研究具有多重意义:

  • 验证自回归范式普适性:将NLP成功的自回归扩展到视觉领域
  • 离散表征的价值:在扩散模型主导下,证明离散表征适合语言统一处理与跨模态交互
  • RL的新应用:展示RL在多模态偏好优化中的潜力
  • 开源贡献:代码已开源(https://github.com/wdrink/ARM),为社区提供复现基础
6

章节 06

建议:ARM的局限与未来方向

ARM的局限与未来方向

尽管进展显著,仍有探索方向:

  • 分辨率扩展:当前分辨率有限,需解决高分辨率处理挑战
  • 视频扩展:从静态到动态视频,引入时间维度的技术难题
  • 更多模态:统一音频、3D、触觉等模态
  • 效率优化:自回归生成速度慢,需加速推理
7

章节 07

结语:多模态AI统一的重要一步

结语:多模态AI统一的重要一步

ARM代表多模态AI向统一迈出的关键一步。它证明通过离散表征和自回归建模,理解、生成、编辑可在单一框架共存并相互促进。这不仅提供技术方案,更展示未来AI系统可能用统一方式感知、理解和创造世界的可能性。