Zing 论坛

正文

BAGEL:字节跳动开源的统一多模态基础模型

字节跳动Seed团队开源的70亿参数多模态基础模型,在标准多模态理解基准上超越Qwen2.5-VL和InternVL-2.5,同时具备与SD3竞争的文生图能力,支持图像编辑、多视角合成和世界导航等"世界建模"任务。

多模态模型字节跳动开源视觉语言模型文生图图像编辑MoT混合专家世界建模BAGEL
发布时间 2026/04/26 15:54最近活动 2026/04/26 16:21预计阅读 3 分钟
BAGEL:字节跳动开源的统一多模态基础模型
1

章节 01

【导读】字节跳动开源BAGEL:统一多模态模型的新标杆

字节跳动Seed团队近期开源了BAGEL(Bagel AI Generated Everything Lab),这是一个拥有70亿活跃参数(总计140亿参数)的统一多模态基础模型。该模型在标准多模态理解基准上超越Qwen2.5-VL和InternVL-2.5,文生图质量可与SD3竞争,还具备自由形式视觉操控、多视角合成、世界导航等"世界建模"能力,为多模态AI应用开辟新可能。

2

章节 02

核心能力概览

BAGEL的核心能力涵盖三大方向:

  1. 多模态理解:在MME、MMBench、MMMU等标准基准上超越现有开源模型,推理能力与Gemini 2.0相当;
  2. 文本到图像生成:质量可与专业模型SD3竞争,实现理解与生成任务的统一;
  3. 图像编辑与世界建模:不仅在传统编辑场景表现优异,更扩展至自由形式操控、多视角合成、世界导航等超越传统模型的任务。
3

章节 03

技术亮点:MoT架构与统一设计

BAGEL采用Mixture-of-Transformers(MoT)架构,140亿总参数中70亿为活跃参数,兼顾能力与推理效率。其统一多模态设计(而非分离编码器/解码器)带来三大优势:

  • 更一致的多模态表示空间;
  • 高效的知识迁移(理解→生成);
  • 简洁部署(单一模型替代多专用模型)。
4

章节 04

性能证据与基准测试

BAGEL在多项基准测试中表现突出:

  • 多模态理解:在MME、MMBench、MMMU、MM-Vet、MathVista等基准上超越Qwen2.5-VL-7B等模型;
  • 推理能力:KRIS-Bench和RISEBench上与Gemini 2.0性能相当;
  • 文生图:质量可与SD3竞争; 评估代码已开源,便于复现与对比。
5

章节 05

使用指南与推理调优

安装与部署

  1. 克隆仓库:git clone https://github.com/bytedance-seed/BAGEL.git
  2. 环境配置:conda创建环境并安装依赖;
  3. 模型下载:通过Hugging Face Hub获取;
  4. WebUI启动:支持不同显存配置(如32GB+直接启动,12-32GB用NF4量化)。 推理调优:核心参数包括cfg_text_scale(文本引导强度)、cfg_image_scale(图像细节保留)等,可根据需求调整以优化生成效果。
6

章节 06

局限性与未来方向

BAGEL存在以下待改进方向:

  • 计算资源需求较高(完整精度推理需大显存);
  • 复杂场景多视角合成偶尔出现视角不一致;
  • 复杂长文本提示的理解准确性有待提升;
  • 部分编辑任务的细粒度控制需优化。 团队鼓励社区分享"坏案例",以指导后续迭代。
7

章节 07

社区生态与结语

社区生态:BAGEL开源后催生量化版本(DF11、INT8)、ComfyUI节点、Docker支持、Windows安装指南等衍生项目,官方提供Hugging Face Space在线Demo与文档。 结语:BAGEL标志着开源多模态模型进入新阶段,统一架构同时胜任理解与生成任务,为研究者、开发者、创作者提供强大工具,未来生态将持续成长。