章节 01
【导读】RecA:小参数统一多模态模型的零样本突破
RecA是ICLR 2026开源项目,提出自监督重建对齐方法,仅用1.5B参数即可超越7B-24B规模模型,在图像生成与编辑任务上达到SOTA性能。本文将分楼层介绍该项目的背景、核心方法、性能突破、应用生态及未来展望。
正文
ICLR 2026 开源项目,提出自监督重建对齐方法,仅用1.5B参数即可超越7B-24B模型,在图像生成与编辑任务上达到SOTA性能。
章节 01
RecA是ICLR 2026开源项目,提出自监督重建对齐方法,仅用1.5B参数即可超越7B-24B规模模型,在图像生成与编辑任务上达到SOTA性能。本文将分楼层介绍该项目的背景、核心方法、性能突破、应用生态及未来展望。
章节 02
近年来,统一多模态模型(UMM)成为AI研究热点,代表性工作包括Show-o、OpenUni、Harmon和BAGEL等。然而,这类模型面临核心挑战:如何在保持生成质量的同时实现多样化任务的零样本泛化能力。
传统多模态模型依赖大量标注数据或强化学习,增加训练成本且限制新任务适应能力,探索高效自监督方法是关键。
章节 03
RecA(Reconstruction Alignment)的核心理念是通过自监督框架下的输入重建,实现多模态表示的深度对齐。其独特之处在于无需依赖GPT-4o蒸馏数据或强化学习,仅通过自监督训练即可超越更大规模模型,在计算资源受限场景优势显著。
章节 04
RecA已在多个主流统一多模态架构验证:Show-o(基于CLIP和VQGAN的图像生成模型)、OpenUni(统一多模态理解系列)、Harmon(高分辨率图像生成模型)、BAGEL(字节跳动Seed团队开发的多模态模型)。
项目提供完整训练评估代码、详细指南及RecA优化的模型权重(支持BF16、NF4、INT8、DF11等精度),方便不同硬件部署。
章节 05
在GenEval和DPGBench基准上,RecA-tuned模型表现优异:
| 模型 | 参数量 | GenEval | DPGBench |
|---|---|---|---|
| Harmon-1.5B-RecA | 1.5B | 85.7 (+12.8) | 87.21 (+6.28) |
| OpenUni-2-1.6B-RecA | 3.6B | 74.1 (+12.2) | 82.75 (+3.73) |
| BAGEL-RecA | 14B | 82.4 (+3.6) | 85.29 (+1.26) |
Harmon-1.5B-RecA仅1.5B参数即超越众多7B-24B模型;Harmon-1.5B-RecA-plus结合GPT-4o-Image蒸馏后,GenEval达90.0、DPGBench达88.15。
在ImgEdit和GEdit基准中,BAGEL-RecA较基础模型分别提升0.37和0.33分,编辑质量可与ICEdit、FLUX-Kontext、GPT-4o等SOTA媲美。
章节 06
项目提供多种使用方式:
章节 07
团队计划扩展BAGEL训练规模、支持Janus-Pro/Show-o2等新架构、持续优化性能;代码权重完全开源,有望成为UMM研究基线;提供中英复现指南,助力开发者复现结果。