正文

BAGEL：字节跳动开源的统一多模态基础模型

字节跳动Seed团队开源的70亿参数多模态基础模型，在标准多模态理解基准上超越Qwen2.5-VL和InternVL-2.5，同时具备与SD3竞争的文生图能力，支持图像编辑、多视角合成和世界导航等"世界建模"任务。

多模态模型字节跳动开源视觉语言模型文生图图像编辑MoT混合专家世界建模BAGEL

发布时间 2026/04/26 15:54最近活动 2026/04/26 16:21预计阅读 3 分钟

章节 01

【导读】字节跳动开源BAGEL：统一多模态模型的新标杆

字节跳动Seed团队近期开源了BAGEL（Bagel AI Generated Everything Lab），这是一个拥有70亿活跃参数（总计140亿参数）的统一多模态基础模型。该模型在标准多模态理解基准上超越Qwen2.5-VL和InternVL-2.5，文生图质量可与SD3竞争，还具备自由形式视觉操控、多视角合成、世界导航等"世界建模"能力，为多模态AI应用开辟新可能。

章节 02

核心能力概览

BAGEL的核心能力涵盖三大方向：

多模态理解：在MME、MMBench、MMMU等标准基准上超越现有开源模型，推理能力与Gemini 2.0相当；
文本到图像生成：质量可与专业模型SD3竞争，实现理解与生成任务的统一；
图像编辑与世界建模：不仅在传统编辑场景表现优异，更扩展至自由形式操控、多视角合成、世界导航等超越传统模型的任务。

章节 03

技术亮点：MoT架构与统一设计

BAGEL采用Mixture-of-Transformers（MoT）架构，140亿总参数中70亿为活跃参数，兼顾能力与推理效率。其统一多模态设计（而非分离编码器/解码器）带来三大优势：

更一致的多模态表示空间；
高效的知识迁移（理解→生成）；
简洁部署（单一模型替代多专用模型）。

章节 04

性能证据与基准测试

BAGEL在多项基准测试中表现突出：

多模态理解：在MME、MMBench、MMMU、MM-Vet、MathVista等基准上超越Qwen2.5-VL-7B等模型；
推理能力：KRIS-Bench和RISEBench上与Gemini 2.0性能相当；
文生图：质量可与SD3竞争；评估代码已开源，便于复现与对比。

章节 05

使用指南与推理调优

安装与部署：

克隆仓库：git clone https://github.com/bytedance-seed/BAGEL.git；
环境配置：conda创建环境并安装依赖；
模型下载：通过Hugging Face Hub获取；
WebUI启动：支持不同显存配置（如32GB+直接启动，12-32GB用NF4量化）。 推理调优：核心参数包括cfg_text_scale（文本引导强度）、cfg_image_scale（图像细节保留）等，可根据需求调整以优化生成效果。

章节 06

局限性与未来方向

BAGEL存在以下待改进方向：

计算资源需求较高（完整精度推理需大显存）；
复杂场景多视角合成偶尔出现视角不一致；
复杂长文本提示的理解准确性有待提升；
部分编辑任务的细粒度控制需优化。团队鼓励社区分享"坏案例"，以指导后续迭代。

章节 07

社区生态与结语

社区生态：BAGEL开源后催生量化版本（DF11、INT8）、ComfyUI节点、Docker支持、Windows安装指南等衍生项目，官方提供Hugging Face Space在线Demo与文档。结语：BAGEL标志着开源多模态模型进入新阶段，统一架构同时胜任理解与生成任务，为研究者、开发者、创作者提供强大工具，未来生态将持续成长。