正文

3D-CoS：基于视觉语言模型代码合成的3D重建新范式

3D-CoS提出将3D资产生成为可执行Blender代码的新范式，通过蓝图规划、RAG检索、少样本演示和部件级智能体工作流提升生成质量，在可编辑性和局部修改方面展现独特优势。

3D重建代码合成视觉语言模型Blender程序化建模可编辑性RAG3D内容生成

发布时间 2026/06/09 14:46最近活动 2026/06/10 11:57预计阅读 2 分钟

3D-CoS：基于视觉语言模型代码合成的3D重建新范式

1

章节 01

3D-CoS：基于VLM代码合成的3D重建新范式导读

核心观点 3D-CoS（3D Code Synthesis）提出将3D资产生成为可执行Blender代码的新范式，通过蓝图规划、RAG检索、少样本演示和部件级智能体工作流提升生成质量，在可编辑性和局部修改方面展现独特优势。 来源信息

原作者：arXiv authors
来源平台：arXiv
原始标题：3D-CoS: A New 3D Reconstruction Paradigm Based on VLM Code Synthesis
链接：http://arxiv.org/abs/2606.10478v1
发布时间：2026-06-09

2

章节 02

传统3D表示的局限

当前主流3D重建与编辑系统依赖隐式（如NeRF）或显式（如点云、网格）表示，虽渲染保真度高，但存在根本性局限：

网格：需直接操作顶点/面片，技术门槛高且缺乏语义解释性（如修改椅腿需定位对应顶点）；
NeRF：修改需重新训练或复杂反渲染，难以精确局部调整；
点云：缺乏拓扑信息，编辑易导致几何不连续。

3

章节 03

3D代码合成：可编程的3D表示

3D-CoS将3D资产表示为Blender可执行Python代码，带来三大优势：

可解释性：代码语义明确，人类可理解3D对象构建过程；
可编辑性：调整代码参数（如圆柱体高度）即可精确控制形状；
局部修改能力：直接修改对应部件代码（如椅腿长度），不影响其他部分，解决传统表示的痛点。

4

章节 04

结构化代码合成工作流

研究团队设计结构化工作流引导VLM生成代码：

蓝图规划：先生成高层步骤序列（如椅子构建：座面→椅腿→靠背→组合）；
RAG增强：生成时检索Blender API文档，提升代码正确性；
少样本演示：提供复杂几何操作示例，帮助VLM映射几何概念到代码；
部件级智能体：分而治之，各部件由专门智能体生成，主智能体协调装配关系。

5

章节 05

局部文本驱动编辑的优势（实验证据）

实验对比代码与点云编辑：

点云编辑：需识别椅腿对应点集，易导致连接处裂缝或误伤相邻部件；
代码编辑：直接修改椅腿代码参数，语义明确，精确且保持几何连续性；结果显示：代码表示在编辑保真度和未编辑区域保留方面更优。

6

章节 06

VLM能力边界探索

评估VLMs（开源如LLaVA/Qwen-VL、闭源如GPT-4V/Claude）能力边界：

局限：3D空间关系理解不足、复杂拓扑处理困难、Blender API掌握不全面；
增强策略效果：RAG提升API任务正确率，少样本示例助力几何学习，蓝图规划优化生成结构合理性。

7

章节 07

应用前景与未来研究方向

应用前景：

内容创作：自然语言生成原型+代码精修；
工业设计：参数化产品定义，便于版本控制；
教育：可解释的3D建模学习材料。 未来方向：
扩展到Maya/3ds Max等平台；
支持曲面建模、物理仿真等复杂操作；
优化VLM架构适配3D代码生成；
融合代码表示与NeRF、高斯泼溅等其他3D表示。