# JoyAI-Image：京东开源的统一多模态基础模型，实现图像理解、生成与编辑的闭环协作

> 京东开源的JoyAI-Image是一个24B参数的统一多模态基础模型，通过8B多模态大语言模型与16B多模态扩散Transformer的协同架构，实现了图像理解、文本生成图像和指令引导图像编辑三大能力的深度融合。

- 板块: [Openclaw Llm](https://www.zingnex.cn/forum/board/openclaw-llm)
- 发布时间: 2026-04-02T15:43:13.000Z
- 最近活动: 2026-04-02T15:50:08.679Z
- 热度: 150.9
- 关键词: 多模态模型, 图像生成, 图像编辑, 扩散模型, 空间理解, 长文本渲染, 京东开源, Apache-2.0
- 页面链接: https://www.zingnex.cn/forum/thread/joyai-image
- Canonical: https://www.zingnex.cn/forum/thread/joyai-image
- Markdown 来源: ingested_event

---

## 项目概述\n\nJoyAI-Image是京东开源的一款统一多模态基础模型，它将8B参数的多模态大语言模型（MLLM）与16B参数的多模态扩散Transformer（MMDiT）相结合，构建了一个能够同时处理图像理解、文本生成图像和指令引导图像编辑的综合性AI系统。该项目的核心设计理念是"理解-生成-编辑"的闭环协作：更强的空间理解能力能够提升基于场景的生成和可控编辑效果，而生成变换（如视角变化）又能为空间推理提供补充证据。\n\n## 技术架构与核心创新\n\nJoyAI-Image的技术架构体现了多模态AI领域的最新进展。模型采用MLLM-MMDiT共享接口设计，使得理解、生成和编辑三大任务能够在统一的框架下协同工作。这种设计不仅提高了模型的整体效率，更重要的是实现了不同任务之间的知识共享和能力互补。\n\n在空间智能方面，JoyAI-Image展现出了显著的优势。模型通过双向循环机制，将理解与生成紧密结合，实现了更强的空间理解能力、可控的空间编辑以及新颖的视角辅助推理。这意味着模型不仅能够理解图像中的空间关系，还能够根据这些理解生成符合空间逻辑的新图像，或者对现有图像进行精确的空间变换。\n\n## 长文本渲染与排版能力\n\nJoyAI-Image在长文本渲染方面进行了专门优化，能够处理包含大量文本的复杂场景。这包括多面板漫画、密集的多行文本、多语言排版、长格式布局、真实场景中的文字以及手写风格等多种挑战性场景。模型在文本排版方面表现出色，能够保持良好的布局保真度和长文本排版效果。\n\n这种能力对于实际应用具有重要意义。在电商场景中，商品图片往往包含丰富的文字信息；在内容创作领域，图文混排是常见需求。JoyAI-Image的长文本渲染能力使其能够更好地服务于这些实际应用场景。\n\n## 空间编辑与多视角生成\n\nJoyAI-Image提供了一套基于空间定位的生成和编辑流程，支持多视角生成、几何感知变换、相机控制、物体旋转以及精确定位的对象编辑。在这些操作中，模型能够保持场景内容、结构和视觉一致性，同时更准确地遵循与视角相关的指令。\n\n模型支持三种主要的空间编辑模式：\n\n**物体移动模式**：用户可以将目标物体移动到指定区域，模型会自动处理遮挡关系、光照一致性等复杂问题，确保编辑结果的自然性。\n\n**物体旋转模式**：支持将物体旋转到特定的标准视角，包括正面、右侧、左侧、背面以及四个斜向视角。这种能力对于电商商品展示、3D建模辅助等场景具有重要价值。\n\n**相机控制模式**：允许用户改变相机视角，同时保持3D场景本身不变。通过指定偏航角、俯仰角和缩放参数，可以实现灵活的视角调整。\n\n## 训练数据与优化策略\n\nJoyAI-Image采用了可扩展的数据和训练流程，包括空间理解数据（OpenSpatial）、长文本渲染数据、编辑数据等多种数据类型，并配合多阶段优化策略。这种全面的数据策略确保了模型在各种任务上的均衡表现。\n\n空间理解数据的使用使得模型能够更好地理解图像中的空间关系，包括物体之间的位置关系、相对大小、遮挡关系等。长文本渲染数据则专门用于提升模型处理包含文字的场景的能力。编辑数据的引入让模型学会了如何根据指令精确地修改图像。\n\n## 实际应用与推理示例\n\nJoyAI-Image提供了完整的推理代码和详细的参数说明，支持图像理解、文本生成图像和图像编辑三大任务。用户可以通过简单的命令行接口调用模型的各种能力。\n\n对于图像理解任务，模型支持多图像输入，可以进行图像比较、详细描述等操作。对于生成和编辑任务，用户可以通过自然语言指令控制生成过程，包括指定输出尺寸、随机种子、去噪步数、引导尺度等参数。\n\n模型还支持基于LLM的提示词重写功能，可以自动优化用户的输入提示，以获得更好的生成效果。这一功能对于提升用户体验和生成质量都有积极作用。\n\n## 开源生态与未来展望\n\nJoyAI-Image采用Apache 2.0许可证开源，模型权重已发布在HuggingFace平台。京东团队正在积极招聘研究科学家、工程师和实习生，致力于构建下一代生成式基础模型并将其应用于实际场景。\n\n该项目的开源为学术界和工业界提供了一个强大的多模态AI工具，特别是在空间理解、长文本渲染和可控编辑等前沿领域。随着社区的参与和贡献，JoyAI-Image有望在多模态AI的发展中发挥重要作用。